堅牢な推論ベンチマーク
Robust Reasoning Benchmark
March 26, 2026
著者: Pavel Golikov, Evgenii Opryshko, Gennady Pekhimenko, Mark C. Jeffrey
cs.AI
要旨
大規模言語モデル(LLM)は標準的な数学的ベンチマークで高い性能を達成しているが、その根底にある推論プロセスは標準的なテキスト形式に過度に適合した状態が続いている。本研究では、LLMの推論ロバスト性を評価するために14の手法からなる摂動パイプラインを提案する。このパイプラインをAIME 2024データセットに適用し、結果的なベンチマークで8つの最先端モデルを評価した。フロンティアモデルは耐性を示した一方で、オープンウェイトの推論モデルは壊滅的な性能低下(摂乱全体で平均精度最大55%低下、一部の摂乱では100%低下)を示し、構造的な脆弱性が露呈した。さらに、機械的な解析失敗と下流の推論失敗を分離するため、単一のコンテキストウィンドウ内で複数の非摂動数学問題を逐次的に解かせることで、モデルの作業記憶容量を厳密に分離した。その結果、7Bから120BパラメータのオープンウェイトモデルおよびClaude Opus 4.6は、後続の問題において精度劣化を示した。この性能低下は、中間推論ステップが標準的な密な注意機構を恒久的に汚染することを実証している。信頼性の高い推論を実現するためには、将来の推論アーキテクチャがモデル自身の連鎖思考(Chain-of-Thought)内に明示的な文脈リセットを統合する必要があり、これが原子推論タスクの最適な粒度に関する根本的な未解決問題を提起すると論じる。
English
While Large Language Models (LLMs) achieve high performance on standard mathematical benchmarks, their underlying reasoning processes remain highly overfit to standard textual formatting. We propose a perturbation pipeline consisting of 14 techniques to evaluate robustness of LLM reasoning. We apply this pipeline to AIME 2024 dataset and evalute 8 state-of-the-art models on the resulting benchmark. While frontier models exhibit resilience, open weights reasoning models suffer catastrophic collapses (up to 55% average accuracy drops across perturbations and up to 100% on some), exposing structural fragility. To further disentangle mechanical parsing failures from downstream reasoning failures, we strictly isolate the models' working memory capacity by forcing models to solve multiple unperturbed mathematical problems sequentially within a single context window. Our results indicate that open weight models ranging from 7B to 120B parameters and Claude Opus 4.6 exhibit accuracy decay on subsequent problems. This degradation demonstrates that intermediate reasoning steps permanently pollute standard dense attention mechanisms. We argue that to achieve reliable reasoning, future reasoning architectures must integrate explicit contextual resets within a model's own Chain-of-Thought, leading to fundamental open questions regarding the optimal granularity of atomic reasoning tasks.