ChatPaper.aiChatPaper

R-Horizon:大規模推論モデルの広がりと深さはどこまで到達可能か?

R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

October 9, 2025
著者: Yi Lu, Jianing Wang, Linsen Guo, Wei He, Hongyin Tang, Tao Gui, Xuanjing Huang, Xuezhi Cao, Wei Wang, Xunliang Cai
cs.AI

要旨

近年、推論モデル(例:OpenAI o1、DeepSeek-R1)におけるテストタイムスケーリングのトレンドは、長い連鎖思考(Chain-of-Thought, CoT)を通じて顕著な改善をもたらしてきた。しかし、既存のベンチマークは主に即時的で単一の視野に基づくタスクに焦点を当てており、複雑で長期的なシナリオを理解し対応するモデルの能力を適切に評価できていない。この大規模推論モデル(Large Reasoning Models, LRMs)の不完全な評価に対処するため、我々はクエリ合成を通じてLRMsの長期的推論行動を促進する手法「R-HORIZON」を提案する。R-HORIZONに基づき、我々は長期的推論ベンチマークを構築し、相互依存する問題を含む複雑な多段階推論タスクを網羅した。R-HORIZONベンチマークを用いたLRMsの包括的評価を通じて、最も先進的なLRMsでさえも性能が大幅に低下することが明らかとなった。分析の結果、LRMsは有効な推論長が限られており、複数の問題間で思考予算を適切に配分することが困難であることが判明した。これらの制限を認識し、我々はR-HORIZONを用いて、検証済み報酬による強化学習(Reinforcement Learning with Verified Rewards, RLVR)のための長期的推論データを構築した。単一視野データを用いた学習と比較して、R-HORIZONを用いたRLVRは、多視野推論タスクにおける性能を大幅に向上させるだけでなく、標準的な推論タスクにおける精度も向上させ、AIME2024において7.5の増加を示した。これらの結果は、R-HORIZONがLRMsの長期的推論能力を強化し評価するための、スケーラブルで制御可能かつ低コストなパラダイムとして位置づけられることを示している。
English
Recent trends in test-time scaling for reasoning models (e.g., OpenAI o1, DeepSeek-R1) have led to remarkable improvements through long Chain-of-Thought (CoT). However, existing benchmarks mainly focus on immediate, single-horizon tasks, failing to adequately evaluate models' ability to understand and respond to complex, long-horizon scenarios. To address this incomplete evaluation of Large Reasoning Models (LRMs), we propose R-HORIZON, a method designed to stimulate long-horizon reasoning behaviors in LRMs through query composition. Based on R-HORIZON, we construct a long-horizon reasoning benchmark, comprising complex multi-step reasoning tasks with interdependent problems that span long reasoning horizons. Through comprehensive evaluation of LRMs using the R-HORIZON benchmark, we find that even the most advanced LRMs suffer significant performance degradation. Our analysis reveals that LRMs exhibit limited effective reasoning length and struggle to allocate thinking budget across multiple problems appropriately. Recognizing these limitations, we use R-HORIZON to construct long-horizon reasoning data for reinforcement learning with verified rewards (RLVR). Compared to training with single-horizon data, RLVR with R-HORIZON not only substantially improves performance on the multi-horizon reasoning tasks, but also promotes accuracy on standard reasoning tasks, with an increase of 7.5 on AIME2024. These results position R-HORIZON as a scalable, controllable, and low-cost paradigm for enhancing and evaluating the long-horizon reasoning capabilities of LRMs.
PDF252October 13, 2025