Persi nel rumore: come i modelli di ragionamento falliscono con i distrattori contestuali

Abstract

I recenti progressi nei modelli di ragionamento e nei sistemi di IA agentica hanno portato a una maggiore dipendenza da informazioni esterne diversificate. Tuttavia, questo cambiamento introduce contesti di input intrinsecamente rumorosi, una realtà che i benchmark attuali, eccessivamente "puliti", non riescono a catturare. Presentiamo NoisyBench, un benchmark completo che valuta sistematicamente la robustezza dei modelli su 11 dataset in compiti di RAG, ragionamento, allineamento e utilizzo di strumenti, contro vari tipi di rumore, inclusi documenti casuali, cronologie di chat irrilevanti e distrattori negativi difficili. La nostra valutazione rivela un crollo catastrofico delle prestazioni, fino all'80%, nei modelli più all'avanguardia quando confrontati con distrattori contestuali. Fondamentalmente, scopriamo che i flussi di lavoro agentici spesso amplificano questi errori fidandosi eccessivamente degli output rumorosi degli strumenti, e che i distrattori possono innescare un disallineamento emergente anche senza intenti avversari. Rileviamo che prompt engineering, context engineering, SFT e RL con ricompensa basata solo sull'esito falliscono nell'assicurare robustezza; al contrario, la nostra Ricompensa Consapevole della Razionalità (RARE) rafforza significativamente la resilienza incentivando l'identificazione di informazioni utili nel rumore. Infine, scopriamo una tendenza di scaling inverso per cui un aumento della computazione al momento del test porta a prestazioni peggiori in ambienti rumorosi e dimostriamo, tramite visualizzazione dell'attenzione, che i modelli si concentrano in modo sproporzionato sui token distrattori, fornendo insight cruciali per costruire la prossima generazione di agenti robusti e capaci di ragionamento.

English

Recent advances in reasoning models and agentic AI systems have led to an increased reliance on diverse external information. However, this shift introduces input contexts that are inherently noisy, a reality that current sanitized benchmarks fail to capture. We introduce NoisyBench, a comprehensive benchmark that systematically evaluates model robustness across 11 datasets in RAG, reasoning, alignment, and tool-use tasks against diverse noise types, including random documents, irrelevant chat histories, and hard negative distractors. Our evaluation reveals a catastrophic performance drop of up to 80% in state-of-the-art models when faced with contextual distractors. Crucially, we find that agentic workflows often amplify these errors by over-trusting noisy tool outputs, and distractors can trigger emergent misalignment even without adversarial intent. We find that prompting, context engineering, SFT, and outcome-reward only RL fail to ensure robustness; in contrast, our proposed Rationale-Aware Reward (RARE) significantly strengthens resilience by incentivizing the identification of helpful information within noise. Finally, we uncover an inverse scaling trend where increased test-time computation leads to worse performance in noisy settings and demonstrate via attention visualization that models disproportionately focus on distractor tokens, providing vital insights for building the next generation of robust, reasoning-capable agents.

Persi nel rumore: come i modelli di ragionamento falliscono con i distrattori contestuali

Lost in the Noise: How Reasoning Models Fail with Contextual Distractors

Abstract

Support