ChatPaper.aiChatPaper

REST: Pruebas de Estrés para Modelos de Razonamiento a Gran Escala mediante la Formulación de Múltiples Problemas Simultáneos

REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once

July 14, 2025
Autores: Zhuoshi Pan, Qizhi Pei, Yu Li, Qiyao Sun, Zinan Tang, H. Vicky Zhao, Conghui He, Lijun Wu
cs.AI

Resumen

Los modelos recientes de razonamiento a gran escala (LRMs, por sus siglas en inglés) han logrado avances notables en benchmarks específicos para tareas, pero sus métodos de evaluación siguen limitados por paradigmas aislados de resolución de problemas. Los benchmarks existentes evalúan predominantemente el razonamiento de preguntas únicas mediante pruebas secuenciales, lo que resulta en limitaciones críticas: (1) vulnerabilidad a la contaminación de datos y menor nivel de desafío (por ejemplo, DeepSeek-R1 alcanza un 97.0% en MATH500), lo que obliga a la creación costosa y perpetua de nuevas preguntas con grandes esfuerzos humanos, (2) incapacidad para evaluar modelos bajo presión de múltiples contextos, un requisito clave para su implementación en el mundo real. Para cerrar esta brecha, presentamos REST (Evaluación de Razonamiento mediante Pruebas Simultáneas), un marco de pruebas de estrés que expone a los LRMs a múltiples problemas de manera simultánea. Más allá del razonamiento básico, REST evalúa específicamente varias capacidades poco probadas: asignación de prioridad contextual, resistencia a la interferencia entre problemas y gestión dinámica de la carga cognitiva. Nuestra evaluación revela varios hallazgos sorprendentes: incluso modelos de última generación (SOTA) como DeepSeek-R1 muestran una degradación sustancial del rendimiento bajo pruebas de estrés. Crucialmente, REST demuestra un poder discriminativo más fuerte que los benchmarks existentes, revelando diferencias pronunciadas en el rendimiento entre modelos que exhiben un rendimiento similar y cercano al máximo en evaluaciones de preguntas únicas. Algunas ideas mecanísticas clave surgen de nuestro análisis: (1) la "trampa de sobrepensar" es un factor crítico que contribuye a la degradación del rendimiento; (2) los modelos entrenados con la técnica "long2short" preservan más precisión en su rendimiento de problemas únicos bajo REST, superando a sus contrapartes entrenadas de manera estándar. Estos resultados establecen a REST como un paradigma de evaluación rentable y preparado para el futuro que refleja mejor las demandas de razonamiento del mundo real, al tiempo que reduce la dependencia de la anotación humana continua.
English
Recent Large Reasoning Models (LRMs) have achieved remarkable progress on task-specific benchmarks, yet their evaluation methods remain constrained by isolated problem-solving paradigms. Existing benchmarks predominantly assess single-question reasoning through sequential testing, resulting critical limitations: (1) vulnerability to data contamination and less challenging (e.g., DeepSeek-R1 achieves 97.0% on MATH500), forcing costly and perpetual creation of new questions with large human efforts, (2) failure to evaluate models under multi-context pressure, a key requirement for real-world deployment. To bridge this gap, we present REST (Reasoning Evaluation through Simultaneous Testing), a stress-testing framework that concurrently exposes LRMs to multiple problems simultaneously. Beyond basic reasoning, REST specifically evaluates several under-tested capabilities: contextual priority allocation, cross-problem interference resistance, and dynamic cognitive load management. Our evaluation reveals several striking findings: Even state-of-the-art (SOTA) models like DeepSeek-R1 exhibit substantial performance degradation under stress testing. Crucially, REST demonstrates stronger discriminative power than existing benchmarks, revealing pronounced performance differences among models that exhibit similar, near-ceiling performance under single-question evaluations. Some key mechanistic insights emerge from our analysis: (1) the "overthinking trap" is a critical factor contributing to the performance degradation; (2) the models trained with "long2short" technique preserve more accuracy of their single-problem performance under REST, outperforming standard-trained counterparts. These results establish REST as a cost-efficient, future-proof evaluation paradigm that better reflects real-world reasoning demands while reducing reliance on continuous human annotation.
PDF232July 15, 2025