AIの導入を成功させるには:
Step 3 デプロイメント

AIの導入を成功させるには: Step 3 デプロイメント

機械学習エンジニアは、モデルを学習する際に、収集した学習データに対する誤差が最小になるように、モデルのパラメータを最適化します。しかし、この作業が成功したからといって、そのモデルが目にしたことのないデータでうまく機能するとは限りません。そのため、モデルがまだ見たことのないデータを含むテストデータセットでモデルをテストするのが一般的です。さて、テストデータセットで良い結果が得られたとしても、そのモデルが本番でもうまくいくとは限りません。

本番環境のデータは、モデルが学習したデータと様々な点で異なる可能性があります。前処理技術の違い、時間的なズレ、データソースの違いによるデータの微妙なズレなど、収集したデータが本番データと完全に一致しない理由はいくつかあります。

展開を成功させるためには、堅牢なシステムを現場に展開していることを確認するために、さらに多くのチェックやテストを行う必要があります。いくつかの例として、以下のようなことが考えられます。

  • 誤差やモデルの不確実性が高いデータをログに残し、モデルの性能劣化をリアルタイムに検出するシステム。
  • 本番データの特徴と予想されるデータの特徴を比較して、環境が変化しているかどうかを検知し、誤った予測をする危険性を防ぐシステム。
  • ラベリングしてトレーニングデータセットに追加するのに興味深いと思われる新しいデータポイントをキャプチャするシステム。
  • 目の前の問題に対して大きく外れた可能性のある出力を防ぎ、致命的な失敗を防ぐことができる従来のルールベースのシステム
これらのシステムを導入することで、より多くのデータを取得した際にモデルを継続的に更新する、継続的なモニタリングと再トレーニングのシステムを実現できます。この場合、各モデルがどのデータで学習されたかを把握するために、データのバージョン管理を行うことが重要です。これにより、モデルが正しいデータで学習されたかどうかを確認することで、モデル性能の問題を解決できます。

人間によるラベリングが必要な場合は、新しいデータを効率的にラベリングできるプロセスが必要になります。例えば、高速ラベリング・プラットフォームと、どのデータがラベリングされたか、されていないかを追跡する方法、ラベルが曖昧な場合にどうすべきか、曖昧な定義を明確にするための人間ラベラーのガイドライン、人間自身がミスをしていないことを確認するための検証手順、さらに、研究者がそのデータセットレベルの統計が意味をなしていることを確認できるデータ分析などです。

現実的なシナリオでは、特定のラベルは他のラベルよりも頻度が低いため、データセットのバランスを取る必要があります。そして、ラベラーにデータを提示したときに、我々がより関心を持っているインスタンスをラベリングできるようにしなければならないのです。例えば、犬が99%、狼が1%しかいないデータセットがあった場合、狼1匹に対して犬99匹の画像をラベル付けするのは好ましくありません。狼1匹に対して犬を10匹だけラベル付けした方が、ラベル付け作業の費用対効果を最大化できるでしょう。

最後に、AIシステムを導入する際には、ミスのリスクプロファイルを考慮する必要があります。ミスは避けられませんし、人間でもミスをします。実際、よく訓練されたAIモデルは、一般的に人間よりも平均してミスが少ないことがわかっています。しかし、AIモデルがミスをした場合、人間よりもはるかに多くのミスをしてしまう可能性があり、これはリスク軽減の観点から問題となります。

そのため、このシステムがどの程度の自律性を持ち、どの程度の保護機能を備えているか、また導入前にどの程度のテストを行う必要があるかを判断することが重要です。例えば、動画サイトのレコメンデーションは、致命的なエラーで物理的な故障が発生する可能性のある産業用制御システムよりも、より迅速に展開でき、繰り返し行うことができます。

最近では、「説明可能なAI」システムが注目されています。なぜなら、最新のAIモデルは、高次元の空間で計算を行うことで正確に機能しており、それを低次元の空間に投影して人間が視覚化しても、モデルの動作を単純化しすぎてしまい、非常に見慣れないデータに遭遇した場合にモデルが正しく一般化するかどうかを理解するには不十分だからです。デバッグやモデルの動作を把握するための可視化技術には価値がありますが、壊滅的な失敗を防ぎたいのであれば、それ以上のことをしなければなりません。

そのためには、慣れない状況でモデルを徹底的にテストしたり、「エッジケース」と呼ばれる、モデルが誤作動を起こすように人工的に作られたデータポイントを提示したりする必要があります。例えば、画像分類の場合、研究者は視覚的に曖昧な画像のデータセットを作成し、分類モデルが潔く失敗するか、あるいはランダムな予測をするかを調べました。このようなテストにより、新世代のより堅牢なアルゴリズムが形成されました。
Contact
ご不明な点がございましたら、お問い合わせください