R-Horizon: Насколько далеко может продвинуться ваша крупная модель рассуждений в широте и глубине?
R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
October 9, 2025
Авторы: Yi Lu, Jianing Wang, Linsen Guo, Wei He, Hongyin Tang, Tao Gui, Xuanjing Huang, Xuezhi Cao, Wei Wang, Xunliang Cai
cs.AI
Аннотация
Последние тенденции в масштабировании моделей рассуждений на этапе тестирования (например, OpenAI o1, DeepSeek-R1) привели к значительным улучшениям благодаря использованию длинных цепочек рассуждений (Chain-of-Thought, CoT). Однако существующие бенчмарки в основном сосредоточены на задачах с немедленным, одношаговым горизонтом, что не позволяет адекватно оценить способность моделей понимать и реагировать на сложные, многошаговые сценарии. Чтобы устранить этот пробел в оценке крупных моделей рассуждений (Large Reasoning Models, LRMs), мы предлагаем метод R-HORIZON, предназначенный для стимулирования длинных цепочек рассуждений в LRMs через композицию запросов. На основе R-HORIZON мы создаем бенчмарк для оценки многошаговых рассуждений, включающий сложные задачи с взаимосвязанными проблемами, охватывающими длинные горизонты рассуждений. В ходе всесторонней оценки LRMs с использованием бенчмарка R-HORIZON мы обнаруживаем, что даже самые передовые модели демонстрируют значительное снижение производительности. Наш анализ показывает, что LRMs имеют ограниченную эффективную длину рассуждений и испытывают трудности с распределением ресурсов мышления между несколькими задачами. Осознавая эти ограничения, мы используем R-HORIZON для создания данных для обучения с подкреплением с проверенными наградами (Reinforcement Learning with Verified Rewards, RLVR). По сравнению с обучением на одношаговых данных, RLVR с использованием R-HORIZON не только значительно улучшает производительность на задачах с многошаговыми рассуждениями, но также повышает точность на стандартных задачах рассуждений, демонстрируя увеличение на 7.5 баллов на AIME2024. Эти результаты позиционируют R-HORIZON как масштабируемую, управляемую и экономически эффективную парадигму для улучшения и оценки способностей LRMs к длинным цепочкам рассуждений.
English
Recent trends in test-time scaling for reasoning models (e.g., OpenAI o1,
DeepSeek-R1) have led to remarkable improvements through long Chain-of-Thought
(CoT). However, existing benchmarks mainly focus on immediate, single-horizon
tasks, failing to adequately evaluate models' ability to understand and respond
to complex, long-horizon scenarios. To address this incomplete evaluation of
Large Reasoning Models (LRMs), we propose R-HORIZON, a method designed to
stimulate long-horizon reasoning behaviors in LRMs through query composition.
Based on R-HORIZON, we construct a long-horizon reasoning benchmark, comprising
complex multi-step reasoning tasks with interdependent problems that span long
reasoning horizons. Through comprehensive evaluation of LRMs using the
R-HORIZON benchmark, we find that even the most advanced LRMs suffer
significant performance degradation. Our analysis reveals that LRMs exhibit
limited effective reasoning length and struggle to allocate thinking budget
across multiple problems appropriately. Recognizing these limitations, we use
R-HORIZON to construct long-horizon reasoning data for reinforcement learning
with verified rewards (RLVR). Compared to training with single-horizon data,
RLVR with R-HORIZON not only substantially improves performance on the
multi-horizon reasoning tasks, but also promotes accuracy on standard reasoning
tasks, with an increase of 7.5 on AIME2024. These results position R-HORIZON as
a scalable, controllable, and low-cost paradigm for enhancing and evaluating
the long-horizon reasoning capabilities of LRMs.