R-Horizon: Até Onde Seu Modelo de Raciocínio de Grande Escala Pode Realmente Ir em Amplitude e Profundidade?
R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
October 9, 2025
Autores: Yi Lu, Jianing Wang, Linsen Guo, Wei He, Hongyin Tang, Tao Gui, Xuanjing Huang, Xuezhi Cao, Wei Wang, Xunliang Cai
cs.AI
Resumo
Tendências recentes em escalonamento no tempo de teste para modelos de raciocínio (por exemplo, OpenAI o1, DeepSeek-R1) levaram a melhorias notáveis por meio de longas Cadeias de Pensamento (CoT). No entanto, os benchmarks existentes focam principalmente em tarefas imediatas e de horizonte único, falhando em avaliar adequadamente a capacidade dos modelos de compreender e responder a cenários complexos e de longo horizonte. Para abordar essa avaliação incompleta dos Modelos de Raciocínio de Grande Escala (LRMs), propomos o R-HORIZON, um método projetado para estimular comportamentos de raciocínio de longo horizonte em LRMs por meio da composição de consultas. Com base no R-HORIZON, construímos um benchmark de raciocínio de longo horizonte, composto por tarefas complexas de raciocínio em múltiplas etapas com problemas interdependentes que abrangem longos horizontes de raciocínio. Através de uma avaliação abrangente de LRMs usando o benchmark R-HORIZON, descobrimos que mesmo os LRMs mais avançados sofrem uma degradação significativa de desempenho. Nossa análise revela que os LRMs exibem um comprimento efetivo de raciocínio limitado e lutam para alocar o orçamento de pensamento de forma apropriada entre múltiplos problemas. Reconhecendo essas limitações, usamos o R-HORIZON para construir dados de raciocínio de longo horizonte para aprendizado por reforço com recompensas verificadas (RLVR). Em comparação com o treinamento com dados de horizonte único, o RLVR com R-HORIZON não apenas melhora substancialmente o desempenho em tarefas de raciocínio de múltiplos horizontes, mas também promove a precisão em tarefas de raciocínio padrão, com um aumento de 7,5 no AIME2024. Esses resultados posicionam o R-HORIZON como um paradigma escalável, controlável e de baixo custo para aprimorar e avaliar as capacidades de raciocínio de longo horizonte dos LRMs.
English
Recent trends in test-time scaling for reasoning models (e.g., OpenAI o1,
DeepSeek-R1) have led to remarkable improvements through long Chain-of-Thought
(CoT). However, existing benchmarks mainly focus on immediate, single-horizon
tasks, failing to adequately evaluate models' ability to understand and respond
to complex, long-horizon scenarios. To address this incomplete evaluation of
Large Reasoning Models (LRMs), we propose R-HORIZON, a method designed to
stimulate long-horizon reasoning behaviors in LRMs through query composition.
Based on R-HORIZON, we construct a long-horizon reasoning benchmark, comprising
complex multi-step reasoning tasks with interdependent problems that span long
reasoning horizons. Through comprehensive evaluation of LRMs using the
R-HORIZON benchmark, we find that even the most advanced LRMs suffer
significant performance degradation. Our analysis reveals that LRMs exhibit
limited effective reasoning length and struggle to allocate thinking budget
across multiple problems appropriately. Recognizing these limitations, we use
R-HORIZON to construct long-horizon reasoning data for reinforcement learning
with verified rewards (RLVR). Compared to training with single-horizon data,
RLVR with R-HORIZON not only substantially improves performance on the
multi-horizon reasoning tasks, but also promotes accuracy on standard reasoning
tasks, with an increase of 7.5 on AIME2024. These results position R-HORIZON as
a scalable, controllable, and low-cost paradigm for enhancing and evaluating
the long-horizon reasoning capabilities of LRMs.