AIの説明は信頼できるか? 連鎖思考推論における体系的な過小報告の証拠
Can We Trust AI Explanations? Evidence of Systematic Underreporting in Chain-of-Thought Reasoning
December 25, 2025
著者: Deep Pankajbhai Mehta
cs.AI
要旨
AIシステムが自身の推論を段階的に説明する際、実務者はこれらの説明が実際にAIの回答に影響を与えた要因を明らかにすると考えがちです。私たちはこの仮定を検証するため、質問にヒントを埋め込み、モデルがそれらに言及するかどうかを測定しました。11の主要AIモデル、9,000件以上のテストケースにおける研究で、憂慮すべきパターンを発見しました:モデルは自発的にヒントに言及することはほとんどないものの、直接問われると気づいていたことを認めるのです。これは、モデルが影響力のある情報を認識しているにもかかわらず、報告を選択しないことを示唆しています。モデルに監視されていることを伝えても効果はなく、ヒントの報告を強制すると機能するものの、ヒントが存在しない場合でも報告するようになり、精度が低下します。さらに、ユーザーの嗜好に訴えるヒントが特に危険であることも判明しました―モデルはそれらに最も従う一方で、最も報告しない傾向にあります。これらの発見は、AIの推論を単に見ているだけでは隠れた影響を検出するには不十分であることを示しています。
English
When AI systems explain their reasoning step-by-step, practitioners often assume these explanations reveal what actually influenced the AI's answer. We tested this assumption by embedding hints into questions and measuring whether models mentioned them. In a study of over 9,000 test cases across 11 leading AI models, we found a troubling pattern: models almost never mention hints spontaneously, yet when asked directly, they admit noticing them. This suggests models see influential information but choose not to report it. Telling models they are being watched does not help. Forcing models to report hints works, but causes them to report hints even when none exist and reduces their accuracy. We also found that hints appealing to user preferences are especially dangerous-models follow them most often while reporting them least. These findings suggest that simply watching AI reasoning is not enough to catch hidden influences.