【ヒット商品のネタ出しの会】 日本経済新聞の記事「サイエンス:賢いAIは手段を選ばず」から
2025/04/01
2025.3.30 日本経済新聞の記事「サイエンス:賢いAIは手段を選ばず」から
意図せぬ不正、対策難しく
コラムの著者 青木 慎一氏(日本経済新聞社 編集委員)によれば、AIは目的を遂行するためにズルをすることがあるという。自ら有利なようにデータを書き換え、外部のチェックを逃れようとする。対策を講じても、AIが想定外の回避策を見つけ、誤った方向に進化する恐れがあるという。
○システムの抜け穴を悪用する「報酬ハッキング」
青木氏によれば、今年2月下旬、スタートアップのサカナAI(東京・港区)の研究開発がインテーネット上で炎上したという。同社はAIの開発や利用を効率化する技術を研究開発しており、その結果、10〜100倍も高速化できると発表した。だが、外部の技術者が検証すると、性能評価の検証が甘く、実際は処理速度が遅くなるときもあったという。
AIは設定された目標に近い答えを出すと高得点が得られるという報酬が得られるという。サカナAIの事例では、AIが必要な計算を省いて性能が上がったように見せかけていたという。システムの抜け穴を悪用する「報酬ハッキング」と呼ぶ現象である。同社は対策して再検証すると謝罪した。
このような「報酬ハッキング」の現象は早くから関心を呼んでいた。米オープンAIの2016年の報告では、ボートレースAIを開発したところ、周回コースから外れて特定の地点を回り続けた。障害物にぶつかりながら進む方が高得点が取れるという欠点をついたものであった。
AIは与えられた課題解決のためなら、ルールの範囲内で報酬を最大化する戦略を取るようになる。これが高度なAIほど、様々な手段を駆使して戦略を巡らすというから始末が悪い。ある研究では、推論が得意な高性能モデルのAIほど、チェスAIなどの競技では、負けそうになるとイカサマを繰り返したという。
研究チームもジレンマを持つ。試行錯誤しながらAIが賢くなる「強化学習」をすると、出した答えが正解に近いほど高い報酬が得られる。報酬の与え方を数式化するのは困難で、開発者が意図した成果とずれることがある。そこでずれを生じないようにすると報酬ハッキングを招く。報酬の与え方が完璧なら報酬ハッキングは発生しない。だが、技術的には今のところ困難である。このため人間が監視し、望ましくない行動を修正する対策をとる。
そこで監視をAIでやらせる発想が出る。複数のAIで対象のAIを監視すると受け穴が減少するという報告もある。だが、この方式にも欠点があるという。高度なAIは自らの意図を隠す手段を選び、監視の目をすり抜ける可能性もある。🔥🌳🧠🎓💡💬📻⚡️🏙️💡🏗🚚📈🏢⚡️💹📖🖋🔑🩺💉🏢⚡️🎓👔⏰🔧💻🖥📻🖋🌏💡🔎🌍🇯🇵🇺🇸🇪🇺
コメント