2011年10月15日土曜日

「Onlineアラビア語翻訳」の開発の流れとサンプル2

基礎ができたので、すこしづつ応用。

google翻訳APIを使ったプログラム(テキスト埋め込み形式)
で、順々に翻訳APIに接続することも可能に。

javascriptのsetTimeout機能が大活躍。
これで次の関数処理まで○秒待つという動作が可能に。

これで文章一気に翻訳ではなくて、単語に分解して一つずつ
翻訳することが可能になりそう。翻訳精度の向上に貢献するはず。

アラビア語文章テキストをスペース区切りで格納。
アラビア語のメリットはスペースごとに単語が区切れるところ。
日本語は単語の区切りがないため、こうした機械的な処理ができない。
(*このこともあって日本語→アラビア語のバージョンの開発が遅れてます。)

さらっと言い訳。(笑)

ひとつの単語ずつ、JavaScriptに設置。
順々に接続して翻訳結果読み込み。
処理が終わったら2秒待って、次の翻訳。連番で。

しかし、大量のJavaScript。大丈夫かな。
翻訳制限は500文字だそうです。

「Onlineアラビア語翻訳」の開発の流れとサンプル

 まず、今回の肝となるgoogle翻訳APIのアクセスを復習。

単純な英語と日本語の翻訳ツールを作ってみる。

参考URLはこちら
Googleからの贈り物 - Google AJAX Language APIでカンタンに翻訳サイトを
http://journal.mycom.co.jp/articles/2008/03/21/ajaxlang/001.html

単純にコピペで本当に動きました。

アラビア語と日本語の翻訳も併せて作ってみる。
アラビア語は設定言語が「ar」みたい。

翻訳後の言語を選択して翻訳も正常に動作。
今回は使わなかったけど、応用範囲は広そう。


google翻訳APIを使ったプログラム(テキストボックス自由記入形式)を若干改良して、
google翻訳APIを使ったプログラム(テキスト埋め込み形式)を作成。

これでファイルを自動的に読み込んで、翻訳を開始する機能が作れそう。

「Onlineアラビア語翻訳」の仕様書

Onlineアラビア語翻訳」の仕様書

基本的には、「Twitter(アラビア語)× google(自動翻訳)」サイトを作ったときと同じ流れなので、
このプログラムをベースに作ればいいかなと考えました。

頭の中でこれとこれをつなげて作ればできるだろうなーと思っても
実際動かすとできないことがしばしばあります。

仕様書をどれだけ綺麗に作っても想定どおりに事が運ぶことはまずなく、
ある程度大まかな流れだけ作って(=目標だけ決めて)、
作る過程・プロセスは問わない、解決できればやり方は問わないといった方針で進めました。

1-検索ボックスを設置し、検索したい文章・単語入力して「検索」ボタンをクリック。

2-google翻訳APIに接続して、翻訳結果を取得

3-翻訳結果を検索した文章と併記して表示

この3手順で終了です。

1-はHTMLの基本なので簡単。

2-は、「Twitter(アラビア語)× google(自動翻訳)」サイトでそのしくみを作ったので、簡単。
 今回は単語接続にするので、順々にアクセスするのをどうするか解決しなければ。

3-順々にアクセスするのが解決できれば、表示は簡単。
 
おー、思ったより簡単にできそうだ。さっそく着手。

「Onlineアラビア語翻訳」の作成経緯

Onlineアラビア語翻訳」の作成経緯、
それは今年になってから「アラブの春」という民主化運動が盛んになってきて、
その活動をインターネットメディアが後押ししているという報道があったからです。

twitterやfacebookを軸として若者が連携し、デモを起こす。
では、それが本当だとして、そのtwitterやfacebookでは
何が語られ、情報交換されているのか。
自然とその流れで「Twitter(アラビア語)× google(自動翻訳)」サイトを作成しました。

日本でも爆発的に普及したtwitterやfacebookですが、
話し言葉的なメディアのせいか自動翻訳だと意味不明な日本語になることも多々あり、
また、単語単位ではなく、文章全文を一気に翻訳する手順をとったため
満足のいくような翻訳とはなりませんでした。
(*これはgoogle翻訳の不備ではなく、単純なプログラムの設計ミスです。)

なぜ、翻訳が満足のいく内容にならないのか。
「自動翻訳の限界。結局人間にしかできない。」といってしまえば終わりですが、
それだとアラビア語の膨大な情報にアクセスする手段がなくなってしまいます。

その折衷案として、文章全文を一気に翻訳するのではなく、
単語単位で翻訳(=訳出)をしていけば語順は読む人間が自動的に整理することで
かなりの精度で原文を読むことができるのではないかと考えました。

そんな経緯で出来上がった「Onlineアラビア語翻訳」ですが、
当初頭でイメージしていたものほぼ同じものが何とか出来上がりました。

文章として意味をとれるケースも多いですので、
翻訳の精度はなんとなくですが、7割がたくらいは適切なのではないでしょうか。
リアルタイムの固有名詞や地名・人名がわりと正確に翻訳されることは
文章の理解を助けてくれるので、これはwebの翻訳ツールのメリットの一つでしょう。

ご活用いただければ幸いです。

「Onlineアラビア語翻訳」をリリースしました。

「Onlineアラビア語翻訳」を今回新しく開発し、先日リリースしました。

若干大げさで、過去に他のサイトでつけられたことがあるような名前で
躊躇するタイトルでもありましたが、
今までの「Onlineアラビア語辞書」とは全く毛色の違うサービスになりそうなので
あえて新しい名前をつけてみました。

「Onlineアラビア語翻訳」も同様
皆様のお役に立てれば光栄です。

まず最初に変な話ですが、このサービスを必要としない人、
つまり、今まで同様、「Onlineアラビア語辞書」で十分という方は、

仕事の書類や、授業のテキストなどでわからない単語だけ調べたい方。
最新のブラウザ(IE)を利用されていて、アラビア語単語にカーソルをあてると自動的に
日本語訳が表示される方。

以上の方々には、あまりメリットがないサービスです。

想定している利用者の方は、日々アラビア語のWebサイトをご覧になられていて、
大量のアラビア語の単語の意味を訳出したいという方です。
もちろん文章だけでなく、単語の検索もできますので、
Webサイト中心の利用をされている方にはメリットがあるかと思われます。

1語の単語に対し、1語の訳出となりますのでどの訳語が適切か迷う必要がありません。
(*適切でない訳出がされる場合もありますので、この点もご注意ください。)

ご意見・ご要望ございましたらお気軽にどうぞ。

2011年7月17日日曜日

google newsとOnlineアラビア語辞書の融合の続き

google newsとOnlineアラビア語辞書の融合させまして、
辞書なしでも原文を読みやすくするためのページを作成しましたが、
作成中に重大なことが判明。。

今の新しいパソコン&ブラウザは自動的に単語翻訳してくれるのですね。
アラビア語でも日本語の意味が出てきたので驚きました。

googleツールバーをインストールしていて、
google翻訳の拡張機能をonにしていれば利用可能なようです。

この機能がいいところは、バシッと一語に意味を集約してくれるところ。
いろいろ悩まなくていいです。ただ、その一語の意味で
しっくりこない場合もありますので、
その際はOnlineアラビア語辞書も併せてご利用ください。

今後は、他地域の記事の種類を増やすか、
記事自体の自動翻訳にトライしてみます。

google newsとOnlineアラビア語辞書の融合

ジャスミン革命 Twitter(アラビア語)の自動翻訳
の流れで、世界情勢を「アラブメディアはどう報道しているのだろう?」
といった疑問が自然に沸いてきました。

それで、google newsとOnlineアラビア語辞書の融合をさせまして、
辞書なしでも原文を読みやすくするためのページを作成いたしました。

ダイジェスト記事内の、意味を知りたいアラビア語の単語に
マウスのポインターを乗せていただけますと、日本語の意味が表示されます。
*若干検索に時間がかかるので、完全一致に絞ろうか思案中です。

記事全文はリンク先よりご覧いただけます。
その際も、Onlineアラビア語辞書の文章検索機能をご利用いただければと存じます。

ご要望・ご意見はコメント欄からどうぞ。

2011年7月12日火曜日

文章検索の不具合につきまして

ご連絡遅くなりまして申し訳ございません。
文章検索の不具合につきましてご連絡いただきましてありがとうございました。

設置後に動作チェックした際に正常に動いておりまして、
ご連絡いただいた後に再度チェックいたしましたが、
動作しておりますので、現状問題ないかと考えております。

もしかしますと、ご利用いただいた際に
混雑しておりましたため、反応が悪かったのかもしれません。

速いときでも、検索に2-3秒は最低かかる模様です。
データ量の増加に伴う速度低下は致し方ないところでありまして
ご理解いただければ幸いです。

またお気づきの点などございましたらお気軽にご連絡くださいませ。

2011年7月4日月曜日

アラビア語発音を聞くことのできる「forvo」さんのサービス

アラビア語発音を聞くことのできる「forvo」さんのサービスを組み込みました。

ご注意点をいくつか。

アラビア語の単語登録がない場合があります。
発音者の個性がわりと強く出てます。
(*先生の発音でなくて、旅行で聞くような感じ?親しみやすいです。)
スペースを含む単語は一致しない確率が高いです。

2011年7月3日日曜日

動詞のマッチング率が向上しました。

長年の(ほんとうに長年の)課題でありました、
動詞のマッチング率が向上しました。

規則変化の動詞につきましては、
単数、双数、複数、3人称、2人称、1人称
過去形、未完了、要求法、接続法、直説法、命令形
現在分詞、過去分詞など、
第Ⅰ形~第Ⅹ形まで、かなりの範囲をカバーできていると思います。

不規則変化動詞につきましても今後対応予定です。
もうしばらくお待ちくださいませ。

部分一致のマッチング率改善しました

文字コード変更の過程で、
部分一致のマッチング率がかなり悪くなっておりました。
先ほど修正が完了しました。
ご迷惑をおかけいたしまして申し訳ございませんでした。

原因
1-定冠詞などの削除が文字コード変更のためマッチせず、削除できない
 →文字コードをUTF-8でマッチング

2-文字のバイト数が激減したので条件面が緩くなった
 →バイト数判定の数を緩くする。

アラビア語キーボード改善しました

アラビア語キーボード改善しました。
アラビア語キーボード

ただ、なんとなく発音がわかる人は、既存のYamliの自動変換が便利だと思います。

Yamliの自動変換が便利なのは、
日本語キーボードでもアラビア語の発音をアルファベットで打ち込むと、
アラビア語に自動変換された単語の候補がつらつらと表示されるので早いです。

いずれにしましても、使いやすいほうをお使いください。
節電モードで夏は開発できなさそうなので、急いでいろいろ改善してます。

2011年6月27日月曜日

アラビア語辞書データ更新のお知らせ

この度、アラビア語辞書データを更新いたしました。

内藤浩二氏が作成されました、
『アラビア語-日本語電子辞書データ』
の「中級辞書Ver.3.89(Unicode版)38,900語収録」
を完全収録いたしました。

長らく更新が途絶えておりまして
大変ご迷惑をおかけいたしましたことをお詫び申し上げます。
今後もOnlineアラビア語辞書ご利用いただければ幸いです。

アラビア語辞書リニューアル作業日誌

6/26の作業日誌
1-動詞の変化表を作る(とりあえず規則変化のみ)
2-データの確認

6/27の作業日誌
1-動詞の変化表をMySQLに格納(とりあえず規則変化のみ)
 7Ⅶ形追加終わり
 10Ⅹ形追加終わり
 8Ⅷ形追加終わり
 9Ⅸ形スキップ(極小のため)
 6Ⅵ形追加終わり
 5Ⅴ形追加終わり
 4Ⅳ形追加終わり
 3Ⅲ形追加終わり
 2Ⅱ形追加終わり
 1Ⅰ形追加終わり
  > サーバーくん、お疲れ様でした。毎度酷使してごめんなさい。شُكْرًا جَزِيلاً
    

2-クライアントの文字コードセットをSJISに変更します。
#mysql_query( "SET NAMES ujis", $db );
mysql_query( "SET NAMES utf8mb4", $db );

忘れてた。30分ロス。。。

3-onlineアラビア語辞書に接続
4-中級辞書にデータ切り替え
5-告知

今週のtodoリスト
不規則動詞の対応幅を広げる
名詞の変化も対応するように
キーボードそろそろ作る?

2011年6月26日日曜日

アラビア語の文字のバイト数

アラビア語の文字のバイト数で単語の分解しようと思うのだけれど、
何故か同じ3文字の単語でもバイト数にばらつきが・・・
語根を判別できないのです。。
ご存知の方、教えてください。

I want to know the byte of an Arabic word ,
but some Arabic words are 6 bytes and other Arabic words are 9 bytes .

Why does these difference is happenned ?
I want to know the each root of an Arabic word.
If you know , please teach me .

2011年6月25日土曜日

アラビア語と日本語併記

アラビア語と日本語の併記に悩まされるのは今に始まったことでは有りません。
リニューアルに関し、非常に役に立ったソフト群をご紹介いたします。

Kuto Csv Editor
CSVファイルを快適に編集・閲覧できる、タブ切り替え型のCSVエディタ
と紹介されてますが、「unicode 表計算ソフト」でヒットしました。
実際アラビア語辞書データを文字化けせずに一覧できるソフトは初めてでした。


EmEditor
多くの文字コード・プログラム言語に対応したフリーのテキストエディター
こちらは、アラビア語、日本語併記可能なテキストエディターです。
プログラム開発も可能です。

アラビア語辞書リニューアル手順2011

技術力アップと環境改善のため、いろいろ変更点が。
発音データは今回も利用、アラビア語を扱えるMySQL(unicodeバージョン)が
使えるようになったので、存分に活用します。

(同じ)1-アラビア語-日本語電子辞書データから最新辞書をダウンロード

(同じ)2-ユニコードVer.

(変更)3-File 辞書設定(詳細)
    若干PDICソフトが変わったかも?

(変更)4-Tool 辞書の変換 (CSVデータ形式で出力)
    改行トラブルは正規表現でなんとかクリア

(変更)5-CSVデータ形式の最新辞書をアップロード
    CSV形式をアップロード (UTF-8で保存。改行はLF形式)

(同じ)6-http://www.arab.jp/level4/display_arabic.phpを開く
    日本語とアラビア語一度にそのままMySQL保存できるか?

    データ量が多くなるので10件ずつに減らしたほうがスムーズかも。
    やっぱり改行のタイミングがずれるとまずいので、従来のファイル保存形式に
    その後、CSVファイルをMySQLに一括登録で

(同じ)7-動作テスト

(同じ)8-問題ナッシングなら公開

(同じ)9-労働時間はプライスレス

*過去の問題点
 動詞活用後のマッチング率を改善

アラビア語辞書リニューアル2011

長らく更新が途絶えておりまして申し訳ございません。

近々、内藤浩二氏が作成されました、
『アラビア語-日本語電子辞書データ』 
の「中級辞書Ver.3.89」に辞書データを更新する予定でございます。

よろしくお願いいたします。