Benchmark de Razonamiento Robusto

Resumen

Si bien los Modelos de Lenguaje a Gran Escala (LLMs) logran un alto rendimiento en puntos de referencia matemáticos estándar, sus procesos de razonamiento subyacentes siguen estando muy sobreajustados al formato textual convencional. Proponemos una canalización de perturbación que consta de 14 técnicas para evaluar la robustez del razonamiento de los LLMs. Aplicamos esta canalización al conjunto de datos AIME 2024 y evaluamos 8 modelos de última generación en el benchmark resultante. Mientras que los modelos de vanguardia muestran resiliencia, los modelos de razonamiento de pesos abiertos sufren colapsos catastróficos (hasta caídas de precisión promedio del 55% entre perturbaciones y hasta del 100% en algunas), exponiendo una fragilidad estructural. Para desentrañar aún más los fallos de análisis mecánico de los fallos de razonamiento posteriores, aislamos estrictamente la capacidad de memoria de trabajo de los modelos forzándolos a resolver múltiples problemas matemáticos no perturbados de forma secuencial dentro de una única ventana de contexto. Nuestros resultados indican que los modelos de pesos abiertos que van desde 7B hasta 120B de parámetros, así como Claude Opus 4.6, exhiben una disminución de la precisión en los problemas subsiguientes. Esta degradación demuestra que los pasos intermedios de razonamiento contaminan permanentemente los mecanismos estándar de atención densa. Argumentamos que, para lograr un razonamiento confiable, las arquitecturas de razonamiento futuras deben integrar reinicios contextuales explícitos dentro de la propia Cadena de Pensamiento de un modelo, lo que plantea interrogantes abiertos fundamentales sobre la granularidad óptima de las tareas de razonamiento atómicas.

English

While Large Language Models (LLMs) achieve high performance on standard mathematical benchmarks, their underlying reasoning processes remain highly overfit to standard textual formatting. We propose a perturbation pipeline consisting of 14 techniques to evaluate robustness of LLM reasoning. We apply this pipeline to AIME 2024 dataset and evalute 8 state-of-the-art models on the resulting benchmark. While frontier models exhibit resilience, open weights reasoning models suffer catastrophic collapses (up to 55% average accuracy drops across perturbations and up to 100% on some), exposing structural fragility. To further disentangle mechanical parsing failures from downstream reasoning failures, we strictly isolate the models' working memory capacity by forcing models to solve multiple unperturbed mathematical problems sequentially within a single context window. Our results indicate that open weight models ranging from 7B to 120B parameters and Claude Opus 4.6 exhibit accuracy decay on subsequent problems. This degradation demonstrates that intermediate reasoning steps permanently pollute standard dense attention mechanisms. We argue that to achieve reliable reasoning, future reasoning architectures must integrate explicit contextual resets within a model's own Chain-of-Thought, leading to fundamental open questions regarding the optimal granularity of atomic reasoning tasks.

Benchmark de Razonamiento Robusto

Robust Reasoning Benchmark

Resumen

Support