REST: Stress Testen van Grote Redeneermodellen door Meerdere Problemen Tegelijk te Stellen

Samenvatting

Recente Large Reasoning Models (LRMs) hebben opmerkelijke vooruitgang geboekt op taakspecifieke benchmarks, maar hun evaluatiemethoden blijven beperkt door geïsoleerde probleemoplossingsparadigma's. Bestaande benchmarks beoordelen voornamelijk enkelvoudige vraagredenering via sequentiële tests, wat resulteert in kritieke beperkingen: (1) kwetsbaarheid voor datacontaminatie en minder uitdagende taken (bijvoorbeeld DeepSeek-R1 behaalt 97,0% op MATH500), wat leidt tot kostbare en voortdurende creatie van nieuwe vragen met grote menselijke inspanningen, (2) het onvermogen om modellen te evalueren onder druk van meerdere contexten, een essentiële vereiste voor inzet in de echte wereld. Om deze kloof te overbruggen, presenteren we REST (Reasoning Evaluation through Simultaneous Testing), een stresstestframework dat LRMs gelijktijdig blootstelt aan meerdere problemen. Naast basisredenering evalueert REST specifiek verschillende onderbelichte capaciteiten: contextuele prioriteitstoewijzing, weerstand tegen kruisprobleeminterferentie en dynamisch cognitief belastingsbeheer. Onze evaluatie onthult enkele opvallende bevindingen: zelfs state-of-the-art (SOTA) modellen zoals DeepSeek-R1 vertonen aanzienlijke prestatievermindering onder stresstests. Cruciaal toont REST een sterkere onderscheidende kracht dan bestaande benchmarks, waarbij duidelijke prestatieverschillen worden onthuld tussen modellen die vergelijkbare, bijna maximale prestaties vertonen onder enkelvoudige vraagbeoordelingen. Enkele belangrijke mechanistische inzichten komen naar voren uit onze analyse: (1) de "overthinking trap" is een kritieke factor die bijdraagt aan de prestatievermindering; (2) modellen die zijn getraind met de "long2short"-techniek behouden meer nauwkeurigheid van hun enkelvoudige probleemprestaties onder REST en presteren beter dan standaard getrainde tegenhangers. Deze resultaten vestigen REST als een kostenefficiënt, toekomstbestendig evaluatieparadigma dat beter aansluit bij de redeneereisen van de echte wereld en tegelijkertijd de afhankelijkheid van continue menselijke annotatie vermindert.

English

Recent Large Reasoning Models (LRMs) have achieved remarkable progress on task-specific benchmarks, yet their evaluation methods remain constrained by isolated problem-solving paradigms. Existing benchmarks predominantly assess single-question reasoning through sequential testing, resulting critical limitations: (1) vulnerability to data contamination and less challenging (e.g., DeepSeek-R1 achieves 97.0% on MATH500), forcing costly and perpetual creation of new questions with large human efforts, (2) failure to evaluate models under multi-context pressure, a key requirement for real-world deployment. To bridge this gap, we present REST (Reasoning Evaluation through Simultaneous Testing), a stress-testing framework that concurrently exposes LRMs to multiple problems simultaneously. Beyond basic reasoning, REST specifically evaluates several under-tested capabilities: contextual priority allocation, cross-problem interference resistance, and dynamic cognitive load management. Our evaluation reveals several striking findings: Even state-of-the-art (SOTA) models like DeepSeek-R1 exhibit substantial performance degradation under stress testing. Crucially, REST demonstrates stronger discriminative power than existing benchmarks, revealing pronounced performance differences among models that exhibit similar, near-ceiling performance under single-question evaluations. Some key mechanistic insights emerge from our analysis: (1) the "overthinking trap" is a critical factor contributing to the performance degradation; (2) the models trained with "long2short" technique preserve more accuracy of their single-problem performance under REST, outperforming standard-trained counterparts. These results establish REST as a cost-efficient, future-proof evaluation paradigm that better reflects real-world reasoning demands while reducing reliance on continuous human annotation.

REST: Stress Testen van Grote Redeneermodellen door Meerdere Problemen Tegelijk te Stellen

REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once

Samenvatting

Support