ノイズに埋もれて:推論モデルが文脈的妨害要因に失敗する理由
Lost in the Noise: How Reasoning Models Fail with Contextual Distractors
January 12, 2026
著者: Seongyun Lee, Yongrae Jo, Minju Seo, Moontae Lee, Minjoon Seo
cs.AI
要旨
推論モデルとエージェント型AIシステムの最近の進歩により、多様な外部情報への依存が高まっている。しかし、この変化は本質的にノイズを含む入力コンテキストをもたらすが、現在の清浄化されたベンチマークはこの現実を捉えられていない。我々はNoisyBenchを提案する。これはRAG、推論、アライメント、ツール利用タスクにおける11のデータセットを網羅し、ランダム文書、無関係なチャット履歴、困難なネガティブ・ディストラクターを含む多様なノイズタイプに対するモデルの頑健性を体系的に評価するベンチマークである。評価結果から、最先端モデルが文脈的ディストラクターに直面すると最大80%もの性能急落が生じることが明らかになった。特に重要なのは、エージェント型ワークフローがノイズを含むツール出力を過信することでこれらのエラーを増幅しやすく、敵対的意図がなくてもディストラクターが創発的な非アライメントを引き起こし得る点である。プロンプト設計、コンテキストエンジニアリング、SFT、結果報酬型RLでは頑健性を保証できないことが判明した。対照的に、我々が提案する根拠認識報酬(RARE)は、ノイズ内の有用な情報の特定を促進することで耐性を大幅に強化する。最後に、テスト時の計算量増加がノイズ環境では性能悪化につながる逆スケーリング傾向を発見し、アテンション可視化によりモデルが不均衡にディストラクタートークンに注目することを実証し、次世代の頑健な推論可能エージェント構築に向けた重要な知見を提供する。
English
Recent advances in reasoning models and agentic AI systems have led to an increased reliance on diverse external information. However, this shift introduces input contexts that are inherently noisy, a reality that current sanitized benchmarks fail to capture. We introduce NoisyBench, a comprehensive benchmark that systematically evaluates model robustness across 11 datasets in RAG, reasoning, alignment, and tool-use tasks against diverse noise types, including random documents, irrelevant chat histories, and hard negative distractors. Our evaluation reveals a catastrophic performance drop of up to 80% in state-of-the-art models when faced with contextual distractors. Crucially, we find that agentic workflows often amplify these errors by over-trusting noisy tool outputs, and distractors can trigger emergent misalignment even without adversarial intent. We find that prompting, context engineering, SFT, and outcome-reward only RL fail to ensure robustness; in contrast, our proposed Rationale-Aware Reward (RARE) significantly strengthens resilience by incentivizing the identification of helpful information within noise. Finally, we uncover an inverse scaling trend where increased test-time computation leads to worse performance in noisy settings and demonstrate via attention visualization that models disproportionately focus on distractor tokens, providing vital insights for building the next generation of robust, reasoning-capable agents.