REST: Stress Testen van Grote Redeneermodellen door Meerdere Problemen Tegelijk te Stellen
REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once
July 14, 2025
Auteurs: Zhuoshi Pan, Qizhi Pei, Yu Li, Qiyao Sun, Zinan Tang, H. Vicky Zhao, Conghui He, Lijun Wu
cs.AI
Samenvatting
Recente Large Reasoning Models (LRMs) hebben opmerkelijke vooruitgang geboekt op taakspecifieke benchmarks, maar hun evaluatiemethoden blijven beperkt door geïsoleerde probleemoplossingsparadigma's. Bestaande benchmarks beoordelen voornamelijk enkelvoudige vraagredenering via sequentiële tests, wat resulteert in kritieke beperkingen: (1) kwetsbaarheid voor datacontaminatie en minder uitdagende taken (bijvoorbeeld DeepSeek-R1 behaalt 97,0% op MATH500), wat leidt tot kostbare en voortdurende creatie van nieuwe vragen met grote menselijke inspanningen, (2) het onvermogen om modellen te evalueren onder druk van meerdere contexten, een essentiële vereiste voor inzet in de echte wereld. Om deze kloof te overbruggen, presenteren we REST (Reasoning Evaluation through Simultaneous Testing), een stresstestframework dat LRMs gelijktijdig blootstelt aan meerdere problemen. Naast basisredenering evalueert REST specifiek verschillende onderbelichte capaciteiten: contextuele prioriteitstoewijzing, weerstand tegen kruisprobleeminterferentie en dynamisch cognitief belastingsbeheer. Onze evaluatie onthult enkele opvallende bevindingen: zelfs state-of-the-art (SOTA) modellen zoals DeepSeek-R1 vertonen aanzienlijke prestatievermindering onder stresstests. Cruciaal toont REST een sterkere onderscheidende kracht dan bestaande benchmarks, waarbij duidelijke prestatieverschillen worden onthuld tussen modellen die vergelijkbare, bijna maximale prestaties vertonen onder enkelvoudige vraagbeoordelingen. Enkele belangrijke mechanistische inzichten komen naar voren uit onze analyse: (1) de "overthinking trap" is een kritieke factor die bijdraagt aan de prestatievermindering; (2) modellen die zijn getraind met de "long2short"-techniek behouden meer nauwkeurigheid van hun enkelvoudige probleemprestaties onder REST en presteren beter dan standaard getrainde tegenhangers. Deze resultaten vestigen REST als een kostenefficiënt, toekomstbestendig evaluatieparadigma dat beter aansluit bij de redeneereisen van de echte wereld en tegelijkertijd de afhankelijkheid van continue menselijke annotatie vermindert.
English
Recent Large Reasoning Models (LRMs) have achieved remarkable progress on
task-specific benchmarks, yet their evaluation methods remain constrained by
isolated problem-solving paradigms. Existing benchmarks predominantly assess
single-question reasoning through sequential testing, resulting critical
limitations: (1) vulnerability to data contamination and less challenging
(e.g., DeepSeek-R1 achieves 97.0% on MATH500), forcing costly and perpetual
creation of new questions with large human efforts, (2) failure to evaluate
models under multi-context pressure, a key requirement for real-world
deployment. To bridge this gap, we present REST (Reasoning Evaluation through
Simultaneous Testing), a stress-testing framework that concurrently exposes
LRMs to multiple problems simultaneously. Beyond basic reasoning, REST
specifically evaluates several under-tested capabilities: contextual priority
allocation, cross-problem interference resistance, and dynamic cognitive load
management. Our evaluation reveals several striking findings: Even
state-of-the-art (SOTA) models like DeepSeek-R1 exhibit substantial performance
degradation under stress testing. Crucially, REST demonstrates stronger
discriminative power than existing benchmarks, revealing pronounced performance
differences among models that exhibit similar, near-ceiling performance under
single-question evaluations. Some key mechanistic insights emerge from our
analysis: (1) the "overthinking trap" is a critical factor contributing to the
performance degradation; (2) the models trained with "long2short" technique
preserve more accuracy of their single-problem performance under REST,
outperforming standard-trained counterparts. These results establish REST as a
cost-efficient, future-proof evaluation paradigm that better reflects
real-world reasoning demands while reducing reliance on continuous human
annotation.