Robust Redeneerbenchmark

Samenvatting

Hoewel Large Language Models (LLM's) hoge prestaties leveren op standaard wiskundige benchmarks, blijft hun onderliggende redeneerproces sterk overfit op standaard tekstuele opmaak. Wij stellen een perturbatiepijplijn voor, bestaande uit 14 technieken, om de robuustheid van LLM-redenering te evalueren. We passen deze pijplijn toe op de AIME 2024-dataset en evalueren 8 state-of-the-art modellen op de resulterende benchmark. Hoewel frontier-modellen veerkracht vertonen, lijden open-weights redeneermodellen onder catastrofale ineenstortingen (tot 55% gemiddelde nauwkeurigheidsdaling over perturbaties heen en tot 100% bij sommige), wat structurele kwetsbaarheid blootlegt. Om mechanische parseerfouten verder te ontwarren van downstream redeneerfouten, isoleren we strikt het werkgeheugen van de modellen door hen meerdere onverstoorde wiskundige problemen sequentieel binnen een enkele contextvenster te laten oplossen. Onze resultaten geven aan dat open-weight modellen variërend van 7B tot 120B parameters, evenals Claude Opus 4.6, nauwkeurigheidsverval vertonen bij opeenvolgende problemen. Deze degradatie toont aan dat tussenliggende redeneerstappen standaard dense attention-mechanismen permanent vervuilen. Wij beargumenteren dat voor betrouwbaar redeneren toekomstige redeneerarchitecturen expliciete contextuele resets moeten integreren in de eigen Chain-of-Thought van een model, wat leidt tot fundamentele open vragen regarding de optimale granulariteit van atomare redeneertaken.

English

While Large Language Models (LLMs) achieve high performance on standard mathematical benchmarks, their underlying reasoning processes remain highly overfit to standard textual formatting. We propose a perturbation pipeline consisting of 14 techniques to evaluate robustness of LLM reasoning. We apply this pipeline to AIME 2024 dataset and evalute 8 state-of-the-art models on the resulting benchmark. While frontier models exhibit resilience, open weights reasoning models suffer catastrophic collapses (up to 55% average accuracy drops across perturbations and up to 100% on some), exposing structural fragility. To further disentangle mechanical parsing failures from downstream reasoning failures, we strictly isolate the models' working memory capacity by forcing models to solve multiple unperturbed mathematical problems sequentially within a single context window. Our results indicate that open weight models ranging from 7B to 120B parameters and Claude Opus 4.6 exhibit accuracy decay on subsequent problems. This degradation demonstrates that intermediate reasoning steps permanently pollute standard dense attention mechanisms. We argue that to achieve reliable reasoning, future reasoning architectures must integrate explicit contextual resets within a model's own Chain-of-Thought, leading to fundamental open questions regarding the optimal granularity of atomic reasoning tasks.

Robust Redeneerbenchmark

Robust Reasoning Benchmark

Samenvatting

Support