Robuster Reasoning-Benchmark

Zusammenfassung

Während Large Language Models (LLMs) bei standardmäßigen mathematischen Benchmarks hohe Leistung erzielen, sind ihre zugrundeliegenden Denkprozesse stark an Standard-Textformatierungen überangepasst. Wir schlagen eine Störungspipeline vor, die aus 14 Techniken besteht, um die Robustheit des LLM-Denkens zu bewerten. Wir wenden diese Pipeline auf den AIME-2024-Datensatz an und evaluieren 8 state-of-the-art Modelle mit dem resultierenden Benchmark. Während Spitzenmodelle Widerstandsfähigkeit zeigen, erleiden Open-Weights-Reasoning-Modelle katastrophale Einbrüche (bis zu 55 % durchschnittliche Genauigkeitsverluste über alle Störungen hinweg und bis zu 100 % bei einigen), was strukturelle Fragilität offenbart. Um mechanische Parsing-Fehler weiter von nachgelagerten Denkfehlern zu trennen, isolieren wir die Arbeitsgedächtniskapazität der Modelle strikt, indem wir sie zwingen, mehrere unveränderte mathematische Probleme sequenziell innerhalb eines einzelnen Kontextfensters zu lösen. Unsere Ergebnisse zeigen, dass Open-Weight-Modelle mit Parametern von 7B bis 120B sowie Claude Opus 4.6 einen Genauigkeitsverlust bei nachfolgenden Problemen aufweisen. Diese Verschlechterung demonstriert, dass Zwischenschritte des Denkprozesses die standardmäßigen dichten Attention-Mechanismen dauerhaft kontaminieren. Wir argumentieren, dass zukünftige Reasoning-Architekturen zur Erzielung zuverlässigen Denkens explizite kontextuelle Zurücksetzungen innerhalb der eigenen Chain-of-Thought eines Modells integrieren müssen, was zu grundlegenden offenen Fragen bezüglich der optimalen Granularität atomarer Denkaufgaben führt.

English

While Large Language Models (LLMs) achieve high performance on standard mathematical benchmarks, their underlying reasoning processes remain highly overfit to standard textual formatting. We propose a perturbation pipeline consisting of 14 techniques to evaluate robustness of LLM reasoning. We apply this pipeline to AIME 2024 dataset and evalute 8 state-of-the-art models on the resulting benchmark. While frontier models exhibit resilience, open weights reasoning models suffer catastrophic collapses (up to 55% average accuracy drops across perturbations and up to 100% on some), exposing structural fragility. To further disentangle mechanical parsing failures from downstream reasoning failures, we strictly isolate the models' working memory capacity by forcing models to solve multiple unperturbed mathematical problems sequentially within a single context window. Our results indicate that open weight models ranging from 7B to 120B parameters and Claude Opus 4.6 exhibit accuracy decay on subsequent problems. This degradation demonstrates that intermediate reasoning steps permanently pollute standard dense attention mechanisms. We argue that to achieve reliable reasoning, future reasoning architectures must integrate explicit contextual resets within a model's own Chain-of-Thought, leading to fundamental open questions regarding the optimal granularity of atomic reasoning tasks.

Robuster Reasoning-Benchmark

Robust Reasoning Benchmark

Zusammenfassung

Support