こちら「日本語でケアナビ」開発室

2008年3月のシンポジウムの詳細が決定!

しもやん

「使える」データベースへの挑戦

ダブリ語彙のチェック(1)

「ダブリ語彙」誕生

文献を読み漁ってはそこから例文やことばを拾い集めていた頃、
繰り返し採用されたことばがいくつもありました。
ですが、今現在「日本語でケアナビ」で、表記も意味も全く同じことばが
いくつも収録されていることはありません。
(見落としがあったらすみません。早急に直します!!)
それは、かつて繰り返し収録されたことばを「ダブリ語彙」と命名し、
意味を確認しながら削除していくという作業があったからです。
今回は、「ダブリ語彙」が誕生した理由と、
それをどういう手順で削除していったのかというお話です。

まず、なぜすでに拾ってきていることばを
また違う文献からも拾ってきていたのでしょう?
1回だけ拾えば「ダブリ語彙」なんて生まれないし、
それを見直して消していく作業もしなくて済むのに…と思いませんか?

これは別にうっかりしていた訳ではなく、きちんとした理由を元に
わざと何度も拾っていたからなんです。
その理由とは大きく分けて2つあります。

ことばの傾向の分析:
ことばを飽和状態にする、つまり「これ以上は他の文献を探しても、新たなことばは見つからないだろう」という状態にまでことばの数や種類を増やしていく。
あることばが、どれくらい高い頻度で取り上げられているかによって、その重要度を知る。
(この分析の方法論など、もっと突っ込んだ内容についてはまた今度。)
今後の仕事のスケジューリング:
全てのことばを拾い出すことで、最大の語彙数を把握しておき、作業のスケジューリングに役立てる。
例えば、1000語を分析するための作業時間を把握すれば、時間配分等、今後の仕事のスケジューリングができるようになる。

こういう理由で、別々の文献から全てのことばや例文を拾い出していたのです。

2008.01.08 15:23 - しもやん

次は「ダブリ語彙のチェック(2)」

このトピックの記事一覧へ

コメントする