Perdidos en el ruido: Cómo fallan los modelos de razonamiento con distractores contextuales
Lost in the Noise: How Reasoning Models Fail with Contextual Distractors
January 12, 2026
Autores: Seongyun Lee, Yongrae Jo, Minju Seo, Moontae Lee, Minjoon Seo
cs.AI
Resumen
Los recientes avances en modelos de razonamiento y sistemas de IA agenticos han llevado a una mayor dependencia de información externa diversa. Sin embargo, este cambio introduce contextos de entrada inherentemente ruidosos, una realidad que los benchmarks actuales, excesivamente depurados, no logran capturar. Presentamos NoisyBench, un benchmark integral que evalúa sistemáticamente la robustez de los modelos a través de 11 conjuntos de datos en tareas de RAG, razonamiento, alineación y uso de herramientas, frente a diversos tipos de ruido, incluyendo documentos aleatorios, historiales de chat irrelevantes y distractores negativos difíciles. Nuestra evaluación revela una caída catastrófica del rendimiento de hasta un 80% en modelos de última generación cuando se enfrentan a distractores contextuales. Crucialmente, encontramos que los flujos de trabajo agenticos a menudo amplifican estos errores al confiar excesivamente en salidas ruidosas de herramientas, y que los distractores pueden desencadenar una desalineación emergente incluso sin intención adversarial. Determinamos que el prompting, la ingeniería de contexto, el Fine-Tuning Supervisado (SFT) y el Aprendizaje por Refuerzo con recompensa basada únicamente en el resultado no garantizan la robustez; en contraste, nuestra Recompensa Consciente de la Razonamiento (RARE, por sus siglas en inglés) fortalece significativamente la resiliencia al incentivar la identificación de información útil dentro del ruido. Finalmente, descubrimos una tendencia de escalado inverso donde un mayor cómputo en tiempo de prueba conduce a un peor rendimiento en entornos ruidosos, y demostramos mediante visualización de atención que los modelos se enfocan desproporcionadamente en los tokens distractores, proporcionando insights vitales para construir la próxima generación de agentes robustos y con capacidad de razonamiento.
English
Recent advances in reasoning models and agentic AI systems have led to an increased reliance on diverse external information. However, this shift introduces input contexts that are inherently noisy, a reality that current sanitized benchmarks fail to capture. We introduce NoisyBench, a comprehensive benchmark that systematically evaluates model robustness across 11 datasets in RAG, reasoning, alignment, and tool-use tasks against diverse noise types, including random documents, irrelevant chat histories, and hard negative distractors. Our evaluation reveals a catastrophic performance drop of up to 80% in state-of-the-art models when faced with contextual distractors. Crucially, we find that agentic workflows often amplify these errors by over-trusting noisy tool outputs, and distractors can trigger emergent misalignment even without adversarial intent. We find that prompting, context engineering, SFT, and outcome-reward only RL fail to ensure robustness; in contrast, our proposed Rationale-Aware Reward (RARE) significantly strengthens resilience by incentivizing the identification of helpful information within noise. Finally, we uncover an inverse scaling trend where increased test-time computation leads to worse performance in noisy settings and demonstrate via attention visualization that models disproportionately focus on distractor tokens, providing vital insights for building the next generation of robust, reasoning-capable agents.