Эталонный тест устойчивого логического мышления

Аннотация

Хотя крупные языковые модели (LLM) демонстрируют высокие результаты на стандартных математических бенчмарках, их лежащие в основе процессы рассуждений остаются сильно переобученными стандартному текстовому форматированию. Мы предлагаем конвейер пертурбаций, состоящий из 14 методов, для оценки устойчивости рассуждений LLM. Мы применяем этот конвейер к набору данных AIME 2024 и оцениваем 8 современных моделей на полученном бенчмарке. В то время как передовые модели демонстрируют устойчивость, модели рассуждений с открытыми весами подвержены катастрофическому коллапсу (снижение средней точности до 55% по всем пертурбациям и до 100% на некоторых), что выявляет их структурную хрупкость. Для дальнейшего разграничения сбоев механического парсинга и сбоев последующих рассуждений мы строго изолируем объем рабочей памяти моделей, заставляя их решать несколько незашумленных математических задач последовательно в пределах одного контекстного окна. Наши результаты показывают, что модели с открытыми весами в диапазоне от 7 до 120 миллиардов параметров, а также Claude Opus 4.6, демонстрируют снижение точности на последующих задачах. Эта деградация свидетельствует о том, что промежуточные шаги рассуждений необратимо загрязняют стандартные механизмы плотного внимания. Мы утверждаем, что для достижения надежных рассуждений будущие архитектуры должны интегрировать явные контекстные сбросы в собственную цепочку рассуждений (Chain-of-Thought) модели, что порождает фундаментальные открытые вопросы относительно оптимальной гранулярности атомарных задач рассуждения.

English

While Large Language Models (LLMs) achieve high performance on standard mathematical benchmarks, their underlying reasoning processes remain highly overfit to standard textual formatting. We propose a perturbation pipeline consisting of 14 techniques to evaluate robustness of LLM reasoning. We apply this pipeline to AIME 2024 dataset and evalute 8 state-of-the-art models on the resulting benchmark. While frontier models exhibit resilience, open weights reasoning models suffer catastrophic collapses (up to 55% average accuracy drops across perturbations and up to 100% on some), exposing structural fragility. To further disentangle mechanical parsing failures from downstream reasoning failures, we strictly isolate the models' working memory capacity by forcing models to solve multiple unperturbed mathematical problems sequentially within a single context window. Our results indicate that open weight models ranging from 7B to 120B parameters and Claude Opus 4.6 exhibit accuracy decay on subsequent problems. This degradation demonstrates that intermediate reasoning steps permanently pollute standard dense attention mechanisms. We argue that to achieve reliable reasoning, future reasoning architectures must integrate explicit contextual resets within a model's own Chain-of-Thought, leading to fundamental open questions regarding the optimal granularity of atomic reasoning tasks.

Эталонный тест устойчивого логического мышления

Robust Reasoning Benchmark

Аннотация

Support