「ダブリ語彙」誕生
文献を読み漁ってはそこから例文やことばを拾い集めていた頃、
繰り返し採用されたことばがいくつもありました。
ですが、今現在「日本語でケアナビ」で、表記も意味も全く同じことばが
いくつも収録されていることはありません。
(見落としがあったらすみません。早急に直します!!)
それは、かつて繰り返し収録されたことばを「ダブリ語彙」と命名し、
意味を確認しながら削除していくという作業があったからです。
今回は、「ダブリ語彙」が誕生した理由と、
それをどういう手順で削除していったのかというお話です。
まず、なぜすでに拾ってきていることばを
また違う文献からも拾ってきていたのでしょう?
1回だけ拾えば「ダブリ語彙」なんて生まれないし、
それを見直して消していく作業もしなくて済むのに…と思いませんか?
これは別にうっかりしていた訳ではなく、きちんとした理由を元に
わざと何度も拾っていたからなんです。
その理由とは大きく分けて2つあります。
- ことばの傾向の分析:
- ことばを飽和状態にする、つまり「これ以上は他の文献を探しても、新たなことばは見つからないだろう」という状態にまでことばの数や種類を増やしていく。
あることばが、どれくらい高い頻度で取り上げられているかによって、その重要度を知る。
(この分析の方法論など、もっと突っ込んだ内容についてはまた今度。) - 今後の仕事のスケジューリング:
- 全てのことばを拾い出すことで、最大の語彙数を把握しておき、作業のスケジューリングに役立てる。
例えば、1000語を分析するための作業時間を把握すれば、時間配分等、今後の仕事のスケジューリングができるようになる。
こういう理由で、別々の文献から全てのことばや例文を拾い出していたのです。
2008.01.08 15:23 - しもやん


