アノテーション
アノテーションとは、AIの中心部分である機械学習を実装する際、画像などのデータにメタデータを付与する作業を指します。例えばリンゴの画像にリンゴの色、形、大きさに関する「正しい情報」を付与することで『これはリンゴである』とAIに学習させるのがアノテーションです。厳密には機械学習に限った用語ではありませんが、近年では単に「アノテーション」と言えばAIや機械学習と同じ文脈で使われる傾向があります。なお、アノテーション専用のサービスも存在します。
AIに『何が正しいデータで、何が間違っているのか』『この画像はどのカテゴリに当てはまるか』を学習させる重要なフェイズであり、メタデータは別名教師データと言われる通り、AIに正解を教えるデータとも言えます。アノテーションは大きく音声・テキスト・画像の各メディアに分類されており、Googleなどの検索エンジンから動画配信サービス、スマートスピーカーなどあらゆるプラットフォームで活用されています。
特にテキストの場合に言えることですが、アノテーションに使われる情報の供給が常に課題として付きまといます。テキスト情報は音楽や画像と違ってデータ上に存在しないことが多く、その場合は紙などのアナログ媒体をデータ化しなければなりません。一方でアナログのテキスト情報はそうした手間や収集の難しさがあることから、『オフライン上のテキスト情報をいかに教師データとして使えるようにするか』は、機械学習の強化における一つの鍵と言えるでしょう。
用語集に戻る