Perdidos no Ruído: Como os Modelos de Raciocínio Falham com Distratores Contextuais

Resumo

Os recentes avanços em modelos de raciocínio e sistemas de IA agentes levaram a uma maior dependência de informações externas diversas. No entanto, esta mudança introduz contextos de entrada que são inerentemente ruidosos, uma realidade que os *benchmarks* atuais, excessivamente sanitizados, não conseguem capturar. Apresentamos o NoisyBench, um *benchmark* abrangente que avalia sistematicamente a robustez dos modelos em 11 conjuntos de dados em tarefas de RAG, raciocínio, alinhamento e uso de ferramentas contra diversos tipos de ruído, incluindo documentos aleatórios, históricos de conversa irrelevantes e *distractors* negativos difíceis. Nossa avaliação revela uma queda catastrófica de desempenho de até 80% em modelos de última geração quando confrontados com *distractors* contextuais. Crucialmente, descobrimos que os fluxos de trabalho agentes frequentemente amplificam esses erros ao confiar excessivamente em saídas ruidosas de ferramentas, e os *distractors* podem desencadear um desalinhamento emergente mesmo sem intenção adversária. Verificamos que o *prompting*, a engenharia de contexto, o Fine-Tuning Supervisionado (SFT) e o RL com recompensa baseada apenas no resultado falham em garantir robustez; em contraste, nossa Recompensa Baseada em Raciocínio (RARE) proposta fortalece significativamente a resiliência ao incentivar a identificação de informações úteis no ruído. Por fim, descobrimos uma tendência de escalonamento inverso em que o aumento da computação em tempo de teste leva a um pior desempenho em ambientes ruidosos e demonstramos, por meio da visualização de atenção, que os modelos se concentram desproporcionalmente em *tokens* de distração, fornecendo insights vitais para a construção da próxima geração de agentes robustos e com capacidade de raciocínio.

English

Recent advances in reasoning models and agentic AI systems have led to an increased reliance on diverse external information. However, this shift introduces input contexts that are inherently noisy, a reality that current sanitized benchmarks fail to capture. We introduce NoisyBench, a comprehensive benchmark that systematically evaluates model robustness across 11 datasets in RAG, reasoning, alignment, and tool-use tasks against diverse noise types, including random documents, irrelevant chat histories, and hard negative distractors. Our evaluation reveals a catastrophic performance drop of up to 80% in state-of-the-art models when faced with contextual distractors. Crucially, we find that agentic workflows often amplify these errors by over-trusting noisy tool outputs, and distractors can trigger emergent misalignment even without adversarial intent. We find that prompting, context engineering, SFT, and outcome-reward only RL fail to ensure robustness; in contrast, our proposed Rationale-Aware Reward (RARE) significantly strengthens resilience by incentivizing the identification of helpful information within noise. Finally, we uncover an inverse scaling trend where increased test-time computation leads to worse performance in noisy settings and demonstrate via attention visualization that models disproportionately focus on distractor tokens, providing vital insights for building the next generation of robust, reasoning-capable agents.

Perdidos no Ruído: Como os Modelos de Raciocínio Falham com Distratores Contextuais

Lost in the Noise: How Reasoning Models Fail with Contextual Distractors

Resumo

Support