Verloren in de ruis: Hoe redeneermodellen falen bij contextuele afleidingen
Lost in the Noise: How Reasoning Models Fail with Contextual Distractors
January 12, 2026
Auteurs: Seongyun Lee, Yongrae Jo, Minju Seo, Moontae Lee, Minjoon Seo
cs.AI
Samenvatting
Recente vooruitgang in redeneermodellen en agent-gebaseerde AI-systemen heeft geleid tot een grotere afhankelijkheid van diverse externe informatie. Deze verschuiving introduceert echter invoercontexten die inherent ruis bevatten, een realiteit die huidige gesaneerde benchmarks niet weergeven. Wij introduceren NoisyBench, een uitgebreide benchmark die de robuustheid van modellen systematisch evalueert over 11 datasets voor RAG-, redeneer-, alignatie- en tool-use-taken, tegenover diverse soorten ruis, waaronder willekeurige documenten, irrelevante chatgeschiedenissen en harde negatieve afleiders. Onze evaluatie toont een catastrofale prestatievermindering van tot 80% bij state-of-the-art modellen wanneer zij worden geconfronteerd met contextuele afleiders. Cruciaal is dat wij vaststellen dat agent-workflows deze fouten vaak versterken door te veel te vertrouwen op ruisachtige tool-outputs, en dat afleiders emergent misalignment kunnen veroorzaken zelfs zonder kwaadwillige opzet. Wij constateren dat prompting, contextengineering, SFT en outcome-reward RL alleen niet volstaan om robuustheid te garanderen; daarentegen versterkt onze voorgestelde Rationale-Aware Reward (RARE) de veerkracht aanzienlijk door het identificeren van nuttige informatie binnen ruis te stimuleren. Ten slotte onthullen wij een omgekeerde schaalwet waarbij meer rekenkracht tijdens testen leidt tot slechtere prestaties in rumoerige omgevingen en tonen wij via aandachtvisualisatie aan dat modellen onevenredig veel aandacht besteden aan afleidende tokens, wat cruciale inzichten biedt voor de ontwikkeling van de volgende generatie robuuste, redeneercapabele agenten.
English
Recent advances in reasoning models and agentic AI systems have led to an increased reliance on diverse external information. However, this shift introduces input contexts that are inherently noisy, a reality that current sanitized benchmarks fail to capture. We introduce NoisyBench, a comprehensive benchmark that systematically evaluates model robustness across 11 datasets in RAG, reasoning, alignment, and tool-use tasks against diverse noise types, including random documents, irrelevant chat histories, and hard negative distractors. Our evaluation reveals a catastrophic performance drop of up to 80% in state-of-the-art models when faced with contextual distractors. Crucially, we find that agentic workflows often amplify these errors by over-trusting noisy tool outputs, and distractors can trigger emergent misalignment even without adversarial intent. We find that prompting, context engineering, SFT, and outcome-reward only RL fail to ensure robustness; in contrast, our proposed Rationale-Aware Reward (RARE) significantly strengthens resilience by incentivizing the identification of helpful information within noise. Finally, we uncover an inverse scaling trend where increased test-time computation leads to worse performance in noisy settings and demonstrate via attention visualization that models disproportionately focus on distractor tokens, providing vital insights for building the next generation of robust, reasoning-capable agents.