Benchmark de Raciocínio Robusto

Resumo

Embora os Modelos de Linguagem de Grande Porte (LLMs) atinjam alto desempenho em benchmarks matemáticos padrão, seus processos de raciocínio subjacentes permanecem altamente superajustados à formatação textual convencional. Propomos um *pipeline* de perturbação composto por 14 técnicas para avaliar a robustez do raciocínio dos LLMs. Aplicamos este *pipeline* ao conjunto de dados AIME 2024 e avaliamos 8 modelos state-of-the-art no *benchmark* resultante. Enquanto os modelos de fronteira exibem resiliência, os modelos de raciocínio de pesos abertos sofrem colapsos catastróficos (quedas de até 55% na precisão média entre as perturbações e até 100% em algumas), expondo uma fragilidade estrutural. Para separar ainda mais as falhas de análise mecânica das falhas de raciocínio subsequente, isolamos estritamente a capacidade de memória de trabalho dos modelos, forçando-os a resolver múltiplos problemas matemáticos não perturbados sequencialmente dentro de uma única janela de contexto. Nossos resultados indicam que modelos de pesos abertos, variando de 7B a 120B de parâmetros, e o Claude Opus 4.6 exibem decaimento de precisão nos problemas subsequentes. Esta degradação demonstra que as etapas intermediárias de raciocínio poluem permanentemente os mecanismos padrão de atenção densa. Argumentamos que, para alcançar um raciocínio confiável, as arquiteturas futuras de raciocínio devem integrar reinicializações contextuais explícitas dentro da própria Cadeia de Pensamento (*Chain-of-Thought*) de um modelo, levantando questões fundamentais em aberto sobre a granularidade ideal das tarefas atômicas de raciocínio.

English

While Large Language Models (LLMs) achieve high performance on standard mathematical benchmarks, their underlying reasoning processes remain highly overfit to standard textual formatting. We propose a perturbation pipeline consisting of 14 techniques to evaluate robustness of LLM reasoning. We apply this pipeline to AIME 2024 dataset and evalute 8 state-of-the-art models on the resulting benchmark. While frontier models exhibit resilience, open weights reasoning models suffer catastrophic collapses (up to 55% average accuracy drops across perturbations and up to 100% on some), exposing structural fragility. To further disentangle mechanical parsing failures from downstream reasoning failures, we strictly isolate the models' working memory capacity by forcing models to solve multiple unperturbed mathematical problems sequentially within a single context window. Our results indicate that open weight models ranging from 7B to 120B parameters and Claude Opus 4.6 exhibit accuracy decay on subsequent problems. This degradation demonstrates that intermediate reasoning steps permanently pollute standard dense attention mechanisms. We argue that to achieve reliable reasoning, future reasoning architectures must integrate explicit contextual resets within a model's own Chain-of-Thought, leading to fundamental open questions regarding the optimal granularity of atomic reasoning tasks.

Benchmark de Raciocínio Robusto

Robust Reasoning Benchmark

Resumo

Support