もくじ
京ぽん2「WX310K」の追加辞書について。
概要
ウィルコムの京ぽん2「WX310K」で追加できる「オプション辞書」についてまとめるページです。まずは、製品情報やFAQなどを「WX310K」のページでざっと見ておきましょう。
オプション辞書は、開発元ではる京セラの公式サイト「サイトK」にて配布されており、WX310Kでダウンロードして追加することができるというものです。ダウンロードしたら、「データフォルダ」>「その他」からダウンロードしたファイルである「wx310k_dictionary_v1.dic」を選択すると登録できます。
また、ユーザーが解析などをし、自作のオプション辞書を作成できるようにもなった。2ch辞書など、いくつかオリジナルな辞書が配布されている。
公式オプション辞書について
- ファイル名が「wx310k_dictionary_v1.dic」
- 2006年4月17日公開
- 容量が576Kバイト
- 追加語句数が3万語台
- 初期にダウンロードしたものは著作権保護機能がなくminiSDカード→パソコンとコピーできた
- 現在配布されているものは著作権保護されているので本体から移動できない
- 本体メモリに保存されるため辞書を保存するだけの空き容量がないと駄目
- オプション辞書使用中は「wx310k_dictionary_v1.dic」は削除できない
- オプション辞書は個別に「機能」→「文字入力補助」→「オプション辞書登録」にて解除が可能
オリジナル辞書の自作について
WX310K用辞書作成ツールが公開されています。http://eseuta.mine.nu/
2006年4月21日に2ちゃんねるにてauの京セラ製「A5502K」用の辞書を「WX310K」のオプション辞書に変換するツールを◆PUYO2v61AQ氏が公開してくれました。すでに、A5502Kの辞書はユーザーにより解析され、オリジナル辞書が作成可能となっているので、これにより「WX310K」用のオリジナル辞書も作成可能となっています。
各ツールのインストール
- WX310K ユーザ辞書変換ツール
- .NET Framework 2.0が必要なので、導入していない人はMicrosoft .NET Framework Version 2.0 再頒布可能パッケージ (32ビット版:x86)からダウンロードしてインストールする
- 辞書穴(A5502K用辞書作成ツール)
「WX310K ユーザ辞書変換ツール」が.NET Framework 2.0が必要となっているので、Windows2000 SP2およびWindowsXP SP1以上でないと利用できません。
作成方法
直接辞書を作るツールが公開されています。修正希望
基本的には、「WX310K ユーザ辞書変換ツール」についてはReadmeを読みましょう。
- 「辞書穴」で辞書を作成する
- 「辞書穴」で作った辞書(*.dic)を「WX310K ユーザ辞書変換ツール」をインストールしたフォルダにコピーして、ファイル名を「a5502k.dic」に変更する
- 「WX310K ユーザ辞書変換ツール」を実行(ダブルクリック)し、右下のボタンをクリックする
- フォルダ内に「w310k.dic」という「WX310K」用のオリジナルオプション辞書ファイルができるので、ファイル名を適当に変更する(一つ目の時はファイル名はそのままでよい)
- WX310Kの本体メモリにコピーする(miniSDカード経由でOK)
- 「データフォルダ」>「その他」から当該ファイルを選び登録する
配布されているオリジナル辞書
- 2ちゃんねる辞書
- ダウンロード後、パソコンでZIPファイルを解凍
- WX310Kの本体メモリにコピー
- 「データフォルダ」→「その他」から「2ch_wx310k.DIC」を選択し、登録
- 登録語一覧(テキストファイル)
- 声優辞書+α
- ダウンロード後、パソコンでZIPファイルを解凍、以下同じ
- 登録後一覧(テキストファイル)
- 東アジア辞書 2006.04.25版 (※朝鮮関連のみ)
- 「あ」で「A」「a」「A」「a」に変換
- ガオガイガー辞書
その他解析など
京セラからのオフィシャル辞書ファイル内容の概略
全体はおよそ3つのパートに分かれている
- 前部はバイナリとなっており、いくつかのブロックに分かれるがごく一部を除いて不明
- 00002C-2E:辞書本体の先頭アドレス(027CC2)
- 000053-55:辞書本体の次のデータの先頭アドレス(0785BB)
- チェックサムの類は含まれていない(一部を書き換えて有効だったため)
- 他機種の辞書を入れた時の動作からみて、この領域は予測変換用か?
- 中央部は辞書本体。読みと変換結果が読みのあいうえお順に並ぶ
- 後部はバイナリで、辞書本体へのポインタが3バイトごとに並んでいる
- 番地0785BBから終端記号"NJDC"の直前までが、すべて変換した単語への相対ポインタで、変換した単語の文字コード順に並んでます(3バイトずつ)。
辞書本体は{変換結果1,変換結果2,...,変換結果n,読み}という並び。
- 読みは文字の並びをコード化したもの(01からアスキーコード順「ぁあぃい…」に対応)
- ([3バイト][漢字])の繰り返し+読み仮名というデータの並びで、[3バイト]の最初のバイトが0x80以上なら、漢字の次に読み仮名、そうでないなら次の漢字以降に読み仮名。3バイト目が0xabとするとa/2が漢字の文字数、bが読み仮名の文字数。
- アルファベットの候補もあるので、a/2を文字数とするのではなく、aを変換後の文字のバイト数として扱うべき。
- 1バイト目の最上位ビットは漢字の次に読み仮名が含まれる事を示すフラグ。
- 1バイト目の最上位から2ビット目はカタナカの候補である事を示すフラグ、このフラグが1の場合、変換後の文字列は読みから求まるので存在していない(変換後の文字のバイト数が0となる)。
- あと、2バイト目は品詞っぽい?0x3Cだと名前、0x36だと普通名詞?
- 2バイト目には(文字数が16バイト以上になった場合のために)3バイト目の情報がある程度含まれるかも
- 2バイト目の最下位ビットをtとした時に、t-16+aを変換後の文字のバイト数として扱うと、現在の辞書に含まれる全ての文字を復元できた。
- 単語長・読み長共に0のものは平仮名のままの候補
- 正確には、変換後の文字のバイト数が0、かつ、カタカナフラグが立っていない場合に平仮名のままの候補となる。読み長が0である事は必須条件ではない。
内容抽出
- 登録語抽出ツウール@2ちゃんねる
- http://hobby7.2ch.net/test/read.cgi/keitai/1145294096/341n
- 辞書解析中・・・(ANOTHER WILLCOM NEWS)
- http://another.willcomnews.com/?eid=216594
- 辞書解析中(その2)(ANOTHER WILLCOM NEWS)
- http://another.willcomnews.com/?eid=216736
- 辞書解析中(その3)(ANOTHER WILLCOM NEWS)
- http://another.willcomnews.com/?eid=216754
他機種の辞書との互換性
- WX310K(京ぽん2)でW41Kの辞書が使えそうな件について(I live until I die. - by Kawasemi)
- http://my.opera.com/kawasemi/blog/show.dml/223965?PHPSESSID=7f6a720fdcb861f3ac60a35b86bc0fc3
- W41Kの実機をまた借りてきました。(I live until I die. - by Kawasemi)
- http://my.opera.com/kawasemi/blog/show.dml/225025?PHPSESSID=d96796319c7cd5ba9ef83343b7514b09
W41Kユーザー辞書内容
- WX310K/300K AH-K3001V 京セラWILLCOM端末総合617
- http://hobby7.2ch.net/test/read.cgi/keitai/1145579704/392
392 : ◆PUYO2v61AQ :2006/04/21(金) 22:43:53 ID:oJM9WDmX0 W41K形式の辞書ファイルフォーマット(解析判明分)です。 ・ヘッダ部(0x0000-0047) 0x0000-0003 NJDC 0x0005 02 (A-Wnnのバージョン?) 0x000C-000F ヘッダ部を除いたサイズ 0x0020-0023 辞書本体の開始アドレス 0x0024-0027 辞書本体の登録単語数 0x0028-002b 辞書本体の使用テーブル数 0x0034-0035 辞書本体の登録単語数(0x0024-0027と同じ) 0x0036-0037 辞書本体のテーブル番号の上限(0x0028-002bより1少ない) 0x003C-003F インデックス1の開始アドレス 0x0040-0044 インデックス2の開始アドレス ・インデックス1 2バイトずつ単語のテーブル番号が入っている。読み仮名のアスキー順にソート ・インデックス2 2バイトずつ単語のテーブル番号が入っている。変換後の単語のアスキー順にソート ・辞書本体 32バイトずつテーブルになっている。 81 63 [読み仮名のバイト数] 32 [変換後の単語のバイト数 & 0x80] [読み仮名] [変換後の単語] こんな感じです。 そしてA5502K形式では、いくつかの数字が異なる他、ヘッダ部の0x0038-0047とインデックス2がありません。 WX310K形式は…サンプルが1個しかない現状ではこれ以上の解析は難しい気がしてます。
当Wiki内関連ページ
一行コメント
- ご意見&感想およびタレコミ大歓迎!
- 2006-04-26 (Wed) 18:07:24 直接WX310Kの辞書を作れるツール (ダウンロード)
- 2006-04-24 (Mon) 19:26:33 「声優辞書+α」が追加されています。
- 2006-04-23 (Sun) 18:31:07 WX310K辞書補完計画
- 2006-04-22 (Sat) 19:08:15 とりあえず : テレビ番組辞書を作った。というかコンバートした。需要がありそうなのってどんなのだろうか。