R-Horizon: ¿Hasta dónde puede llegar realmente su modelo de razonamiento a gran escala en amplitud y profundidad?
R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
October 9, 2025
Autores: Yi Lu, Jianing Wang, Linsen Guo, Wei He, Hongyin Tang, Tao Gui, Xuanjing Huang, Xuezhi Cao, Wei Wang, Xunliang Cai
cs.AI
Resumen
Las tendencias recientes en el escalado en tiempo de prueba para modelos de razonamiento (por ejemplo, OpenAI o1, DeepSeek-R1) han llevado a mejoras notables a través de largas cadenas de pensamiento (Chain-of-Thought, CoT). Sin embargo, los benchmarks existentes se centran principalmente en tareas inmediatas y de un solo horizonte, sin evaluar adecuadamente la capacidad de los modelos para comprender y responder a escenarios complejos y de largo horizonte. Para abordar esta evaluación incompleta de los Modelos de Razonamiento a Gran Escala (Large Reasoning Models, LRMs), proponemos R-HORIZON, un método diseñado para estimular comportamientos de razonamiento de largo horizonte en LRMs mediante la composición de consultas. Basándonos en R-HORIZON, construimos un benchmark de razonamiento de largo horizonte, que comprende tareas complejas de razonamiento de múltiples pasos con problemas interdependientes que abarcan horizontes de razonamiento extensos. A través de una evaluación exhaustiva de los LRMs utilizando el benchmark R-HORIZON, encontramos que incluso los LRMs más avanzados sufren una degradación significativa en su rendimiento. Nuestro análisis revela que los LRMs exhiben una longitud efectiva de razonamiento limitada y tienen dificultades para asignar adecuadamente el presupuesto de pensamiento entre múltiples problemas. Reconociendo estas limitaciones, utilizamos R-HORIZON para construir datos de razonamiento de largo horizonte para el aprendizaje por refuerzo con recompensas verificadas (Reinforcement Learning with Verified Rewards, RLVR). En comparación con el entrenamiento con datos de un solo horizonte, RLVR con R-HORIZON no solo mejora sustancialmente el rendimiento en tareas de razonamiento de múltiples horizontes, sino que también promueve la precisión en tareas de razonamiento estándar, con un aumento de 7.5 en AIME2024. Estos resultados posicionan a R-HORIZON como un paradigma escalable, controlable y de bajo costo para mejorar y evaluar las capacidades de razonamiento de largo horizonte de los LRMs.
English
Recent trends in test-time scaling for reasoning models (e.g., OpenAI o1,
DeepSeek-R1) have led to remarkable improvements through long Chain-of-Thought
(CoT). However, existing benchmarks mainly focus on immediate, single-horizon
tasks, failing to adequately evaluate models' ability to understand and respond
to complex, long-horizon scenarios. To address this incomplete evaluation of
Large Reasoning Models (LRMs), we propose R-HORIZON, a method designed to
stimulate long-horizon reasoning behaviors in LRMs through query composition.
Based on R-HORIZON, we construct a long-horizon reasoning benchmark, comprising
complex multi-step reasoning tasks with interdependent problems that span long
reasoning horizons. Through comprehensive evaluation of LRMs using the
R-HORIZON benchmark, we find that even the most advanced LRMs suffer
significant performance degradation. Our analysis reveals that LRMs exhibit
limited effective reasoning length and struggle to allocate thinking budget
across multiple problems appropriately. Recognizing these limitations, we use
R-HORIZON to construct long-horizon reasoning data for reinforcement learning
with verified rewards (RLVR). Compared to training with single-horizon data,
RLVR with R-HORIZON not only substantially improves performance on the
multi-horizon reasoning tasks, but also promotes accuracy on standard reasoning
tasks, with an increase of 7.5 on AIME2024. These results position R-HORIZON as
a scalable, controllable, and low-cost paradigm for enhancing and evaluating
the long-horizon reasoning capabilities of LRMs.