REST: Belastungstests für große Reasoning-Modelle durch gleichzeitiges Stellen mehrerer Probleme
REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once
July 14, 2025
papers.authors: Zhuoshi Pan, Qizhi Pei, Yu Li, Qiyao Sun, Zinan Tang, H. Vicky Zhao, Conghui He, Lijun Wu
cs.AI
papers.abstract
Aktuelle Large Reasoning Models (LRMs) haben bemerkenswerte Fortschritte auf aufgabenspezifischen Benchmarks erzielt, doch ihre Evaluierungsmethoden bleiben durch isolierte Problemlösungsparadigmen eingeschränkt. Bestehende Benchmarks bewerten vorwiegend das Einzelfragen-Reasoning durch sequenzielles Testen, was zu kritischen Einschränkungen führt: (1) Anfälligkeit für Datenkontamination und geringere Herausforderung (z. B. erreicht DeepSeek-R1 97,0 % auf MATH500), was die kostspielige und fortwährende Erstellung neuer Fragen mit großem menschlichem Aufwand erzwingt, (2) Versagen bei der Bewertung von Modellen unter Mehrkontextdruck, einer Schlüsselvoraussetzung für den realen Einsatz. Um diese Lücke zu schließen, präsentieren wir REST (Reasoning Evaluation through Simultaneous Testing), ein Stress-Test-Framework, das LRMs gleichzeitig mehreren Problemen aussetzt. Über grundlegendes Reasoning hinaus bewertet REST speziell mehrere unterschätzte Fähigkeiten: kontextbezogene Prioritätszuweisung, Widerstandsfähigkeit gegen Problemübergreifende Interferenzen und dynamisches kognitives Lastmanagement. Unsere Evaluation zeigt mehrere bemerkenswerte Erkenntnisse: Selbst State-of-the-Art (SOTA)-Modelle wie DeepSeek-R1 weisen unter Stress-Tests erhebliche Leistungseinbußen auf. Entscheidend ist, dass REST eine stärkere Diskriminierungsfähigkeit als bestehende Benchmarks zeigt und deutliche Leistungsunterschiede zwischen Modellen offenbart, die bei Einzelfragen-Evaluierungen ähnliche, nahezu maximale Leistung zeigen. Einige wichtige mechanistische Erkenntnisse ergeben sich aus unserer Analyse: (1) Die „Overthinking-Falle“ ist ein kritischer Faktor, der zur Leistungsverschlechterung beiträgt; (2) Modelle, die mit der „Long2Short“-Technik trainiert wurden, bewahren mehr Genauigkeit ihres Einzelproblem-Reasonings unter REST und übertreffen damit standardmäßig trainierte Gegenstücke. Diese Ergebnisse etablieren REST als ein kosteneffizientes, zukunftssicheres Evaluierungsparadigma, das die Anforderungen des realen Reasonings besser widerspiegelt und gleichzeitig die Abhängigkeit von kontinuierlicher menschlicher Annotation reduziert.
English
Recent Large Reasoning Models (LRMs) have achieved remarkable progress on
task-specific benchmarks, yet their evaluation methods remain constrained by
isolated problem-solving paradigms. Existing benchmarks predominantly assess
single-question reasoning through sequential testing, resulting critical
limitations: (1) vulnerability to data contamination and less challenging
(e.g., DeepSeek-R1 achieves 97.0% on MATH500), forcing costly and perpetual
creation of new questions with large human efforts, (2) failure to evaluate
models under multi-context pressure, a key requirement for real-world
deployment. To bridge this gap, we present REST (Reasoning Evaluation through
Simultaneous Testing), a stress-testing framework that concurrently exposes
LRMs to multiple problems simultaneously. Beyond basic reasoning, REST
specifically evaluates several under-tested capabilities: contextual priority
allocation, cross-problem interference resistance, and dynamic cognitive load
management. Our evaluation reveals several striking findings: Even
state-of-the-art (SOTA) models like DeepSeek-R1 exhibit substantial performance
degradation under stress testing. Crucially, REST demonstrates stronger
discriminative power than existing benchmarks, revealing pronounced performance
differences among models that exhibit similar, near-ceiling performance under
single-question evaluations. Some key mechanistic insights emerge from our
analysis: (1) the "overthinking trap" is a critical factor contributing to the
performance degradation; (2) the models trained with "long2short" technique
preserve more accuracy of their single-problem performance under REST,
outperforming standard-trained counterparts. These results establish REST as a
cost-efficient, future-proof evaluation paradigm that better reflects
real-world reasoning demands while reducing reliance on continuous human
annotation.