ChatPaper.aiChatPaper

R-Horizon : Jusqu'où votre modèle de raisonnement à grande échelle peut-il réellement aller en ampleur et en profondeur ?

R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

October 9, 2025
papers.authors: Yi Lu, Jianing Wang, Linsen Guo, Wei He, Hongyin Tang, Tao Gui, Xuanjing Huang, Xuezhi Cao, Wei Wang, Xunliang Cai
cs.AI

papers.abstract

Les tendances récentes en matière de mise à l'échelle au moment des tests pour les modèles de raisonnement (par exemple, OpenAI o1, DeepSeek-R1) ont conduit à des améliorations remarquables grâce à des chaînes de pensée (Chain-of-Thought, CoT) longues. Cependant, les benchmarks existants se concentrent principalement sur des tâches immédiates et à horizon unique, ne parvenant pas à évaluer adéquatement la capacité des modèles à comprendre et à répondre à des scénarios complexes et à long horizon. Pour remédier à cette évaluation incomplète des Grands Modèles de Raisonnement (Large Reasoning Models, LRMs), nous proposons R-HORIZON, une méthode conçue pour stimuler les comportements de raisonnement à long horizon dans les LRMs grâce à la composition de requêtes. Sur la base de R-HORIZON, nous construisons un benchmark de raisonnement à long horizon, comprenant des tâches complexes de raisonnement en plusieurs étapes avec des problèmes interdépendants qui s'étendent sur de longs horizons de raisonnement. À travers une évaluation approfondie des LRMs utilisant le benchmark R-HORIZON, nous constatons que même les LRMs les plus avancés subissent une dégradation significative de leurs performances. Notre analyse révèle que les LRMs présentent une longueur de raisonnement efficace limitée et peinent à allouer de manière appropriée leur budget de réflexion à travers plusieurs problèmes. Conscients de ces limitations, nous utilisons R-HORIZON pour construire des données de raisonnement à long horizon pour l'apprentissage par renforcement avec récompenses vérifiées (Reinforcement Learning with Verified Rewards, RLVR). Par rapport à l'entraînement avec des données à horizon unique, RLVR avec R-HORIZON améliore non seulement considérablement les performances sur les tâches de raisonnement à multi-horizon, mais favorise également la précision sur les tâches de raisonnement standard, avec une augmentation de 7,5 sur AIME2024. Ces résultats positionnent R-HORIZON comme un paradigme évolutif, contrôlable et à faible coût pour améliorer et évaluer les capacités de raisonnement à long horizon des LRMs.
English
Recent trends in test-time scaling for reasoning models (e.g., OpenAI o1, DeepSeek-R1) have led to remarkable improvements through long Chain-of-Thought (CoT). However, existing benchmarks mainly focus on immediate, single-horizon tasks, failing to adequately evaluate models' ability to understand and respond to complex, long-horizon scenarios. To address this incomplete evaluation of Large Reasoning Models (LRMs), we propose R-HORIZON, a method designed to stimulate long-horizon reasoning behaviors in LRMs through query composition. Based on R-HORIZON, we construct a long-horizon reasoning benchmark, comprising complex multi-step reasoning tasks with interdependent problems that span long reasoning horizons. Through comprehensive evaluation of LRMs using the R-HORIZON benchmark, we find that even the most advanced LRMs suffer significant performance degradation. Our analysis reveals that LRMs exhibit limited effective reasoning length and struggle to allocate thinking budget across multiple problems appropriately. Recognizing these limitations, we use R-HORIZON to construct long-horizon reasoning data for reinforcement learning with verified rewards (RLVR). Compared to training with single-horizon data, RLVR with R-HORIZON not only substantially improves performance on the multi-horizon reasoning tasks, but also promotes accuracy on standard reasoning tasks, with an increase of 7.5 on AIME2024. These results position R-HORIZON as a scalable, controllable, and low-cost paradigm for enhancing and evaluating the long-horizon reasoning capabilities of LRMs.
PDF252October 13, 2025