AIを勉強する際によく目にするのは学習データです。学習データは、AIを実装するためには重要な役割を担っています。
※学習データとは、実用的なAIを作るために必要な訓練をするのに用いるデータです。
でも、学習データはどうやって用意すればいいのでしょうか。
そのためには、質の良い大量の学習データが必要になります。
例えば、3年間の売上データがあれば2年間を学習データとして使用し、残りの1年間で学習したデータとの近似性を確認します。公開されている気象庁などのデータと組み合わせることで気温や天候での需要が分かり、今後の需要予測に使用することができます。
例えば、問い合わせの回答を自動で返答するAIを作る際には、地道に応対の言葉、業界用語、自社製品などの言葉を教えます。何回も学習させることでより精度の高い応対ができるようになります。
例えば、学習済みデータを使用すればすぐに人物の検出や特定が可能になります。写真の顔写真を覚えさせることで、点呼や入退場などいちいち確認しなくても一瞬で記録することができます。
例えば、過去のイベント時の来場者データと気象データやSNSなどのデータと組み合わせることでどのような天候やどういった人が来場するかが分かるようになるので、今後のイベント開催時の来場者を予測できるようになります。
次回は、学習データの精度を上げるデータクレンジングについてご紹介します。
※学習データとは、実用的なAIを作るために必要な訓練をするのに用いるデータです。
でも、学習データはどうやって用意すればいいのでしょうか。
AIには大量のデータが必要
AIを使用するとき最初に困るのが大量な学習データの用意です。AIはデータを学習しなければ何も分かりません。きちんと学習させることで役に立つ存在になります。そのためには、質の良い大量の学習データが必要になります。
学習データを用意する方法は?
では、どうやって大量のデータを集めるのでしょうか。1.自社のデータを使う
自社にデータがあればそれを使用してAIで何ができるかを考えることが基本になります。例えば、3年間の売上データがあれば2年間を学習データとして使用し、残りの1年間で学習したデータとの近似性を確認します。公開されている気象庁などのデータと組み合わせることで気温や天候での需要が分かり、今後の需要予測に使用することができます。
2.地道に学習データを入力する
手動または自動で学習データを作成していく方法です。すぐに利用できるデータがない場合は、この方法を使用します。例えば、問い合わせの回答を自動で返答するAIを作る際には、地道に応対の言葉、業界用語、自社製品などの言葉を教えます。何回も学習させることでより精度の高い応対ができるようになります。
3.世の中にある学習モデルを使う
画像認識や自然言語処理などでは、多様な学習済みモデルが用意されています。一から学習する場合でも、学習済みモデルを使用することで少ないデータで学習することができます。例えば、学習済みデータを使用すればすぐに人物の検出や特定が可能になります。写真の顔写真を覚えさせることで、点呼や入退場などいちいち確認しなくても一瞬で記録することができます。
4.公開されているデータを使う
AIの活用方法のうち、予測(Prediction)では自分たちのデータではなく、過去の市場データや気象データを使用して学習します。例えば、過去のイベント時の来場者データと気象データやSNSなどのデータと組み合わせることでどのような天候やどういった人が来場するかが分かるようになるので、今後のイベント開催時の来場者を予測できるようになります。
まとめ
今回は、AIを作るのに必要な学習データの用意の仕方をご紹介しました。自分でデータを用意できればいいですが、用意できない場合は、学習済みデータや公開されているデータをうまく利用してAIに学習させていきましょう。次回は、学習データの精度を上げるデータクレンジングについてご紹介します。