Benchmark de Raisonnement Robuste

Résumé

Bien que les modèles de langage de grande taille (LLM) obtiennent des performances élevées sur les benchmarks mathématiques standard, leurs processus de raisonnement sous-jacents restent fortement surappris aux formats textuels conventionnels. Nous proposons un pipeline de perturbation composé de 14 techniques pour évaluer la robustesse du raisonnement des LLM. Nous appliquons ce pipeline à l'ensemble de données AIME 2024 et évaluons 8 modèles à la pointe de la technologie sur le benchmark résultant. Alors que les modèles les plus avancés font preuve de résilience, les modèles de raisonnement à poids ouverts subissent des effondrements catastrophiques (jusqu'à 55 % de baisse de précision moyenne sur l'ensemble des perturbations et jusqu'à 100 % sur certaines), exposant une fragilité structurelle. Pour mieux distinguer les échecs d'analyse mécanique des échecs de raisonnement en aval, nous isolons strictement la capacité de mémoire de travail des modèles en les forçant à résoudre plusieurs problèmes mathématiques non perturbés de manière séquentielle dans une seule fenêtre contextuelle. Nos résultats indiquent que les modèles à poids ouverts, de 7B à 120B de paramètres, ainsi que Claude Opus 4.6, présentent une dégradation de la précision sur les problèmes suivants. Cette détérioration démontre que les étapes de raisonnement intermédiaires polluent de manière permanente les mécanismes d'attention dense standard. Nous soutenons que pour parvenir à un raisonnement fiable, les architectures futures devront intégrer des réinitialisations contextuelles explicites au sein même du Chaîne de Pensée d'un modèle, soulevant des questions ouvertes fondamentales concernant la granularité optimale des tâches de raisonnement atomiques.

English

While Large Language Models (LLMs) achieve high performance on standard mathematical benchmarks, their underlying reasoning processes remain highly overfit to standard textual formatting. We propose a perturbation pipeline consisting of 14 techniques to evaluate robustness of LLM reasoning. We apply this pipeline to AIME 2024 dataset and evalute 8 state-of-the-art models on the resulting benchmark. While frontier models exhibit resilience, open weights reasoning models suffer catastrophic collapses (up to 55% average accuracy drops across perturbations and up to 100% on some), exposing structural fragility. To further disentangle mechanical parsing failures from downstream reasoning failures, we strictly isolate the models' working memory capacity by forcing models to solve multiple unperturbed mathematical problems sequentially within a single context window. Our results indicate that open weight models ranging from 7B to 120B parameters and Claude Opus 4.6 exhibit accuracy decay on subsequent problems. This degradation demonstrates that intermediate reasoning steps permanently pollute standard dense attention mechanisms. We argue that to achieve reliable reasoning, future reasoning architectures must integrate explicit contextual resets within a model's own Chain-of-Thought, leading to fundamental open questions regarding the optimal granularity of atomic reasoning tasks.

Benchmark de Raisonnement Robuste

Robust Reasoning Benchmark

Résumé

Support