REST : Test de résistance des grands modèles de raisonnement en posant plusieurs problèmes simultanément
REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once
July 14, 2025
papers.authors: Zhuoshi Pan, Qizhi Pei, Yu Li, Qiyao Sun, Zinan Tang, H. Vicky Zhao, Conghui He, Lijun Wu
cs.AI
papers.abstract
Les modèles récents de raisonnement à grande échelle (LRMs) ont réalisé des progrès remarquables sur des benchmarks spécifiques à des tâches, mais leurs méthodes d'évaluation restent limitées par des paradigmes de résolution de problèmes isolés. Les benchmarks existants évaluent principalement le raisonnement sur une seule question à travers des tests séquentiels, ce qui entraîne des limitations critiques : (1) une vulnérabilité à la contamination des données et des défis moins exigeants (par exemple, DeepSeek-R1 atteint 97,0 % sur MATH500), forçant la création coûteuse et perpétuelle de nouvelles questions avec un effort humain important, (2) l'incapacité à évaluer les modèles sous pression multi-contexte, une exigence clé pour un déploiement en conditions réelles. Pour combler cette lacune, nous présentons REST (Évaluation du Raisonnement par Test Simultané), un cadre de test de stress qui expose simultanément les LRMs à plusieurs problèmes. Au-delà du raisonnement de base, REST évalue spécifiquement plusieurs capacités sous-testées : l'allocation prioritaire contextuelle, la résistance aux interférences inter-problèmes et la gestion dynamique de la charge cognitive. Notre évaluation révèle plusieurs résultats frappants : même les modèles de pointe (SOTA) comme DeepSeek-R1 montrent une dégradation substantielle de leurs performances sous test de stress. Crucialement, REST démontre un pouvoir discriminant plus fort que les benchmarks existants, révélant des différences de performances prononcées parmi les modèles qui affichent des performances similaires et quasi maximales sous évaluation à question unique. Plusieurs insights mécanistiques clés émergent de notre analyse : (1) le "piège de la sur-réflexion" est un facteur critique contribuant à la dégradation des performances ; (2) les modèles entraînés avec la technique "long2short" préservent davantage la précision de leurs performances à problème unique sous REST, surpassant leurs homologues entraînés de manière standard. Ces résultats établissent REST comme un paradigme d'évaluation rentable et pérenne qui reflète mieux les exigences de raisonnement en conditions réelles tout en réduisant la dépendance à l'annotation humaine continue.
English
Recent Large Reasoning Models (LRMs) have achieved remarkable progress on
task-specific benchmarks, yet their evaluation methods remain constrained by
isolated problem-solving paradigms. Existing benchmarks predominantly assess
single-question reasoning through sequential testing, resulting critical
limitations: (1) vulnerability to data contamination and less challenging
(e.g., DeepSeek-R1 achieves 97.0% on MATH500), forcing costly and perpetual
creation of new questions with large human efforts, (2) failure to evaluate
models under multi-context pressure, a key requirement for real-world
deployment. To bridge this gap, we present REST (Reasoning Evaluation through
Simultaneous Testing), a stress-testing framework that concurrently exposes
LRMs to multiple problems simultaneously. Beyond basic reasoning, REST
specifically evaluates several under-tested capabilities: contextual priority
allocation, cross-problem interference resistance, and dynamic cognitive load
management. Our evaluation reveals several striking findings: Even
state-of-the-art (SOTA) models like DeepSeek-R1 exhibit substantial performance
degradation under stress testing. Crucially, REST demonstrates stronger
discriminative power than existing benchmarks, revealing pronounced performance
differences among models that exhibit similar, near-ceiling performance under
single-question evaluations. Some key mechanistic insights emerge from our
analysis: (1) the "overthinking trap" is a critical factor contributing to the
performance degradation; (2) the models trained with "long2short" technique
preserve more accuracy of their single-problem performance under REST,
outperforming standard-trained counterparts. These results establish REST as a
cost-efficient, future-proof evaluation paradigm that better reflects
real-world reasoning demands while reducing reliance on continuous human
annotation.