Заблудившись в шуме: как модели логического вывода терпят неудачу при наличии контекстуальных отвлекающих факторов
Lost in the Noise: How Reasoning Models Fail with Contextual Distractors
January 12, 2026
Авторы: Seongyun Lee, Yongrae Jo, Minju Seo, Moontae Lee, Minjoon Seo
cs.AI
Аннотация
Последние достижения в области рассуждающих моделей и агентских систем ИИ привели к увеличению зависимости от разнообразной внешней информации. Однако этот сдвиг влечет за собой использование входных контекстов, которые по своей природе содержат шум, — реальность, которую современные "очищенные" бенчмарки не учитывают. Мы представляем NoisyBench — комплексный бенчмарк, который систематически оценивает устойчивость моделей на 11 наборах данных в задачах RAG, логического вывода, согласования и использования инструментов против различных типов шума, включая случайные документы, нерелевантные истории чатов и сложные негативные дистракторы. Наша оценка выявляет катастрофическое падение производительности — до 80% — у современных моделей при столкновении с контекстными дистракторами. Что особенно важно, мы обнаруживаем, что агентские рабочие процессы часто усиливают эти ошибки из-за избыточного доверия к зашумленным выходным данным инструментов, а дистракторы могут провоцировать emergent-несогласованность даже без злонамеренного вмешательства. Мы выяснили, что промптинг, инженерия контекста, SFT и RL с вознаграждением только по результату не обеспечивают устойчивости; напротив, наша предлагаемая методика Rationale-Aware Reward (RARE) значительно повышает устойчивость, поощряя идентификацию полезной информации в условиях шума. Наконец, мы выявили обратную зависимость масштабирования, при которой увеличение вычислительных ресурсов на этапе тестирования приводит к ухудшению производительности в зашумленных условиях, и с помощью визуализации внимания показали, что модели непропорционально фокусируются на токенах-дистракторах, что дает важные инсайты для создания следующего поколения устойчивых агентов, способных к рассуждениям.
English
Recent advances in reasoning models and agentic AI systems have led to an increased reliance on diverse external information. However, this shift introduces input contexts that are inherently noisy, a reality that current sanitized benchmarks fail to capture. We introduce NoisyBench, a comprehensive benchmark that systematically evaluates model robustness across 11 datasets in RAG, reasoning, alignment, and tool-use tasks against diverse noise types, including random documents, irrelevant chat histories, and hard negative distractors. Our evaluation reveals a catastrophic performance drop of up to 80% in state-of-the-art models when faced with contextual distractors. Crucially, we find that agentic workflows often amplify these errors by over-trusting noisy tool outputs, and distractors can trigger emergent misalignment even without adversarial intent. We find that prompting, context engineering, SFT, and outcome-reward only RL fail to ensure robustness; in contrast, our proposed Rationale-Aware Reward (RARE) significantly strengthens resilience by incentivizing the identification of helpful information within noise. Finally, we uncover an inverse scaling trend where increased test-time computation leads to worse performance in noisy settings and demonstrate via attention visualization that models disproportionately focus on distractor tokens, providing vital insights for building the next generation of robust, reasoning-capable agents.