AI

AIに必要なデータクレンジングとは?

前回、AIには大量のデータが必要とご紹介しましたが、ただ大量にデータを集めればいいわけではありません。
不必要なデータをAIに覚えさせてしまうと検出精度が低下してしまいます。なので、画像認識を例にしてデータクレンジングとは何かをご紹介します。

データクレンジングとは

データクレンジングとは、保存されているデータの中から重複や誤表記などを探し出して削除や修正を行いデータの品質を上げることです。
同じ意味なのに表記が違っていて同一画像と認識されなくなり自動処理に適さない状態になることがあります。複数の人がラベリングを行っていたり、複数の情報源からデータを集めた場合に起こることが多い問題です。
では、どのような画像に注意をすればいいのでしょうか。

判定に困るデータは認識させない

人間でも判定できないデータはAIでも特徴点を見つけることができません。そのようなデータをAIに学習させてしまうと画像認識に悪影響を及ぼす可能性があります。  

ラベル付を間違えない

1つずつ準備したデータの場合はあまり起こらないと思いますが、拾ってきたデータをインポートして学習データに使用する場合にラベル付のミスが起こるので注意が必要です。

間違ったオブジェクトが対象になっていないか

例えば、コップを認識させたいのにAIは背景を対象にしていたというのはよく起こります。きちんと認識させたいオブジェクトが対象になっているチャックを行い、間違っている場合は正しく認識できるように修正を行うか削除します。

間違えやすいデータも学習する

AとBはよく似ていて間違えやすい場合もあると思います。その場合AよりもBを学習させるほうがいい場合もあります。Aのデータも必要ですがBのデータも十分に準備できるか考えたほうがいいでしょう。

まとめ

上記でご紹介した注意すること以外にも画像のサイズや向き、本番データを意識した画像などに注意必要があります。
次回もAIと学習データについてご紹介いたします。 弊社では、新規開発を承っています。「こんなアイディアがある」「こんな製品出来ないかな」「コラボレーションできないかな」などありましたらお気軽にお問い合わせください。ご相談もお待ちしております。


ご相談・お問い合わせはこちらから