REST: Стресс-тестирование крупных моделей рассуждений путем одновременного задания нескольких задач
REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once
July 14, 2025
Авторы: Zhuoshi Pan, Qizhi Pei, Yu Li, Qiyao Sun, Zinan Tang, H. Vicky Zhao, Conghui He, Lijun Wu
cs.AI
Аннотация
Недавние крупные модели рассуждений (LRMs) достигли значительного прогресса в специализированных тестах, однако методы их оценки остаются ограниченными изолированными парадигмами решения задач. Существующие тесты преимущественно оценивают рассуждения на основе отдельных вопросов через последовательное тестирование, что приводит к критическим ограничениям: (1) уязвимость к загрязнению данных и недостаточная сложность (например, DeepSeek-R1 достигает 97,0% на MATH500), что вынуждает создавать новые вопросы с большими затратами человеческих усилий, (2) неспособность оценивать модели в условиях многоконтекстного давления, что является ключевым требованием для реального применения. Чтобы устранить этот пробел, мы представляем REST (Reasoning Evaluation through Simultaneous Testing) — фреймворк для стресс-тестирования, который одновременно подвергает LRMs множеству задач. Помимо базовых рассуждений, REST специально оценивает несколько недостаточно проверяемых способностей: распределение приоритетов в контексте, устойчивость к межзадачным помехам и управление динамической когнитивной нагрузкой. Наша оценка выявила несколько поразительных результатов: даже передовые модели, такие как DeepSeek-R1, демонстрируют значительное снижение производительности при стресс-тестировании. Важно, что REST показывает более сильную дискриминационную способность по сравнению с существующими тестами, выявляя заметные различия в производительности моделей, которые демонстрируют схожие, близкие к максимальным результаты при оценке на отдельных вопросах. Наш анализ выявил ключевые механистические инсайты: (1) "ловушка чрезмерного анализа" является критическим фактором, способствующим снижению производительности; (2) модели, обученные с использованием техники "long2short", сохраняют большую точность своих результатов на отдельных задачах в условиях REST, превосходя модели, обученные стандартным способом. Эти результаты устанавливают REST как экономически эффективную, перспективную парадигму оценки, которая лучше отражает требования реального мира к рассуждениям, одновременно снижая зависимость от непрерывной аннотации человеком.
English
Recent Large Reasoning Models (LRMs) have achieved remarkable progress on
task-specific benchmarks, yet their evaluation methods remain constrained by
isolated problem-solving paradigms. Existing benchmarks predominantly assess
single-question reasoning through sequential testing, resulting critical
limitations: (1) vulnerability to data contamination and less challenging
(e.g., DeepSeek-R1 achieves 97.0% on MATH500), forcing costly and perpetual
creation of new questions with large human efforts, (2) failure to evaluate
models under multi-context pressure, a key requirement for real-world
deployment. To bridge this gap, we present REST (Reasoning Evaluation through
Simultaneous Testing), a stress-testing framework that concurrently exposes
LRMs to multiple problems simultaneously. Beyond basic reasoning, REST
specifically evaluates several under-tested capabilities: contextual priority
allocation, cross-problem interference resistance, and dynamic cognitive load
management. Our evaluation reveals several striking findings: Even
state-of-the-art (SOTA) models like DeepSeek-R1 exhibit substantial performance
degradation under stress testing. Crucially, REST demonstrates stronger
discriminative power than existing benchmarks, revealing pronounced performance
differences among models that exhibit similar, near-ceiling performance under
single-question evaluations. Some key mechanistic insights emerge from our
analysis: (1) the "overthinking trap" is a critical factor contributing to the
performance degradation; (2) the models trained with "long2short" technique
preserve more accuracy of their single-problem performance under REST,
outperforming standard-trained counterparts. These results establish REST as a
cost-efficient, future-proof evaluation paradigm that better reflects
real-world reasoning demands while reducing reliance on continuous human
annotation.