REST: 複数問題を同時に問うことで大規模推論モデルをストレステストする
REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once
July 14, 2025
著者: Zhuoshi Pan, Qizhi Pei, Yu Li, Qiyao Sun, Zinan Tang, H. Vicky Zhao, Conghui He, Lijun Wu
cs.AI
要旨
近年の大規模推論モデル(LRMs)は、タスク固有のベンチマークで顕著な進歩を遂げているが、その評価方法は依然として孤立した問題解決パラダイムに制約されている。既存のベンチマークは主に、逐次テストを通じて単一質問の推論を評価しており、以下の重要な限界が生じている:(1) データ汚染への脆弱性と難易度の低さ(例えば、DeepSeek-R1はMATH500で97.0%を達成)、これにより、多大な人的労力を要する新たな質問の継続的な作成が強制されている、(2) 実世界での展開に不可欠な、複数コンテキスト下でのモデル評価の失敗。このギャップを埋めるため、我々はREST(Reasoning Evaluation through Simultaneous Testing)を提案する。これは、LRMsを複数の問題に同時に曝すストレステストフレームワークである。基本的な推論能力を超えて、RESTは特に、コンテキスト優先順位の割り当て、問題間干渉への耐性、動的な認知的負荷管理といった、これまで十分にテストされていない能力を評価する。我々の評価から、いくつかの驚くべき発見が明らかになった:DeepSeek-R1のような最先端(SOTA)モデルでさえ、ストレステスト下では大幅な性能低下を示す。重要なことに、RESTは既存のベンチマークよりも強力な識別力を示し、単一質問評価ではほぼ天井に達する類似の性能を示すモデル間でも、顕著な性能差を明らかにする。分析から得られたいくつかの重要なメカニズム的洞察がある:(1) 「過剰思考の罠」が性能低下の主要な要因である、(2) 「long2short」技術で訓練されたモデルは、REST下でも単一問題の性能の精度をより維持し、標準的に訓練されたモデルを上回る。これらの結果は、RESTが、実世界の推論要求をより反映しつつ、継続的な人間のアノテーションへの依存を軽減する、コスト効率の高い将来性のある評価パラダイムであることを示している。
English
Recent Large Reasoning Models (LRMs) have achieved remarkable progress on
task-specific benchmarks, yet their evaluation methods remain constrained by
isolated problem-solving paradigms. Existing benchmarks predominantly assess
single-question reasoning through sequential testing, resulting critical
limitations: (1) vulnerability to data contamination and less challenging
(e.g., DeepSeek-R1 achieves 97.0% on MATH500), forcing costly and perpetual
creation of new questions with large human efforts, (2) failure to evaluate
models under multi-context pressure, a key requirement for real-world
deployment. To bridge this gap, we present REST (Reasoning Evaluation through
Simultaneous Testing), a stress-testing framework that concurrently exposes
LRMs to multiple problems simultaneously. Beyond basic reasoning, REST
specifically evaluates several under-tested capabilities: contextual priority
allocation, cross-problem interference resistance, and dynamic cognitive load
management. Our evaluation reveals several striking findings: Even
state-of-the-art (SOTA) models like DeepSeek-R1 exhibit substantial performance
degradation under stress testing. Crucially, REST demonstrates stronger
discriminative power than existing benchmarks, revealing pronounced performance
differences among models that exhibit similar, near-ceiling performance under
single-question evaluations. Some key mechanistic insights emerge from our
analysis: (1) the "overthinking trap" is a critical factor contributing to the
performance degradation; (2) the models trained with "long2short" technique
preserve more accuracy of their single-problem performance under REST,
outperforming standard-trained counterparts. These results establish REST as a
cost-efficient, future-proof evaluation paradigm that better reflects
real-world reasoning demands while reducing reliance on continuous human
annotation.