REST: Pruebas de Estrés para Modelos de Razonamiento a Gran Escala mediante la Formulación de Múltiples Problemas Simultáneos
REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once
July 14, 2025
Autores: Zhuoshi Pan, Qizhi Pei, Yu Li, Qiyao Sun, Zinan Tang, H. Vicky Zhao, Conghui He, Lijun Wu
cs.AI
Resumen
Los modelos recientes de razonamiento a gran escala (LRMs, por sus siglas en inglés) han logrado avances notables en benchmarks específicos para tareas, pero sus métodos de evaluación siguen limitados por paradigmas aislados de resolución de problemas. Los benchmarks existentes evalúan predominantemente el razonamiento de preguntas únicas mediante pruebas secuenciales, lo que resulta en limitaciones críticas: (1) vulnerabilidad a la contaminación de datos y menor nivel de desafío (por ejemplo, DeepSeek-R1 alcanza un 97.0% en MATH500), lo que obliga a la creación costosa y perpetua de nuevas preguntas con grandes esfuerzos humanos, (2) incapacidad para evaluar modelos bajo presión de múltiples contextos, un requisito clave para su implementación en el mundo real. Para cerrar esta brecha, presentamos REST (Evaluación de Razonamiento mediante Pruebas Simultáneas), un marco de pruebas de estrés que expone a los LRMs a múltiples problemas de manera simultánea. Más allá del razonamiento básico, REST evalúa específicamente varias capacidades poco probadas: asignación de prioridad contextual, resistencia a la interferencia entre problemas y gestión dinámica de la carga cognitiva. Nuestra evaluación revela varios hallazgos sorprendentes: incluso modelos de última generación (SOTA) como DeepSeek-R1 muestran una degradación sustancial del rendimiento bajo pruebas de estrés. Crucialmente, REST demuestra un poder discriminativo más fuerte que los benchmarks existentes, revelando diferencias pronunciadas en el rendimiento entre modelos que exhiben un rendimiento similar y cercano al máximo en evaluaciones de preguntas únicas. Algunas ideas mecanísticas clave surgen de nuestro análisis: (1) la "trampa de sobrepensar" es un factor crítico que contribuye a la degradación del rendimiento; (2) los modelos entrenados con la técnica "long2short" preservan más precisión en su rendimiento de problemas únicos bajo REST, superando a sus contrapartes entrenadas de manera estándar. Estos resultados establecen a REST como un paradigma de evaluación rentable y preparado para el futuro que refleja mejor las demandas de razonamiento del mundo real, al tiempo que reduce la dependencia de la anotación humana continua.
English
Recent Large Reasoning Models (LRMs) have achieved remarkable progress on
task-specific benchmarks, yet their evaluation methods remain constrained by
isolated problem-solving paradigms. Existing benchmarks predominantly assess
single-question reasoning through sequential testing, resulting critical
limitations: (1) vulnerability to data contamination and less challenging
(e.g., DeepSeek-R1 achieves 97.0% on MATH500), forcing costly and perpetual
creation of new questions with large human efforts, (2) failure to evaluate
models under multi-context pressure, a key requirement for real-world
deployment. To bridge this gap, we present REST (Reasoning Evaluation through
Simultaneous Testing), a stress-testing framework that concurrently exposes
LRMs to multiple problems simultaneously. Beyond basic reasoning, REST
specifically evaluates several under-tested capabilities: contextual priority
allocation, cross-problem interference resistance, and dynamic cognitive load
management. Our evaluation reveals several striking findings: Even
state-of-the-art (SOTA) models like DeepSeek-R1 exhibit substantial performance
degradation under stress testing. Crucially, REST demonstrates stronger
discriminative power than existing benchmarks, revealing pronounced performance
differences among models that exhibit similar, near-ceiling performance under
single-question evaluations. Some key mechanistic insights emerge from our
analysis: (1) the "overthinking trap" is a critical factor contributing to the
performance degradation; (2) the models trained with "long2short" technique
preserve more accuracy of their single-problem performance under REST,
outperforming standard-trained counterparts. These results establish REST as a
cost-efficient, future-proof evaluation paradigm that better reflects
real-world reasoning demands while reducing reliance on continuous human
annotation.