ChatPaper.aiChatPaper

R-Horizon: 대규모 추론 모델의 폭과 깊이, 어디까지 가능한가?

R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

October 9, 2025
저자: Yi Lu, Jianing Wang, Linsen Guo, Wei He, Hongyin Tang, Tao Gui, Xuanjing Huang, Xuezhi Cao, Wei Wang, Xunliang Cai
cs.AI

초록

최근 추론 모델(예: OpenAI o1, DeepSeek-R1)의 테스트 시간 스케일링 트렌드는 긴 사고 사슬(Chain-of-Thought, CoT)을 통해 놀라운 개선을 이끌어냈습니다. 그러나 기존 벤치마크는 주로 즉각적이고 단일 수평선(single-horizon) 작업에 초점을 맞추고 있어, 복잡하고 장기적인 시나리오를 이해하고 응답하는 모델의 능력을 충분히 평가하지 못하고 있습니다. 이러한 대규모 추론 모델(Large Reasoning Models, LRMs)의 불완전한 평가를 해결하기 위해, 우리는 쿼리 구성(query composition)을 통해 LRMs의 장기적 추론 행동을 자극하는 방법인 R-HORIZON을 제안합니다. R-HORIZON을 기반으로, 우리는 상호 의존적인 문제들로 구성된 복잡한 다단계 추론 작업을 포함하는 장기적 추론 벤치마크를 구축했습니다. R-HORIZON 벤치마크를 사용한 LRMs의 종합적 평가를 통해, 가장 진보된 LRMs조차도 상당한 성능 저하를 겪는 것을 발견했습니다. 우리의 분석은 LRMs가 효과적인 추론 길이에 제한이 있으며, 여러 문제에 걸쳐 사고 예산을 적절히 할당하는 데 어려움을 겪는다는 것을 보여줍니다. 이러한 한계를 인식하고, 우리는 검증된 보상(reward)을 통한 강화 학습(Reinforcement Learning with Verified Rewards, RLVR)을 위한 장기적 추론 데이터를 구축하기 위해 R-HORIZON을 사용했습니다. 단일 수평선 데이터로 학습한 경우와 비교했을 때, R-HORIZON을 사용한 RLVR은 다중 수평선 추론 작업에서의 성능을 크게 향상시킬 뿐만 아니라, 표준 추론 작업에서의 정확도도 7.5(AIME2024 기준) 증가시켰습니다. 이러한 결과는 R-HORIZON이 LRMs의 장기적 추론 능력을 향상하고 평가하기 위한 확장 가능하고, 제어 가능하며, 저비용의 패러다임으로 자리매김할 수 있음을 보여줍니다.
English
Recent trends in test-time scaling for reasoning models (e.g., OpenAI o1, DeepSeek-R1) have led to remarkable improvements through long Chain-of-Thought (CoT). However, existing benchmarks mainly focus on immediate, single-horizon tasks, failing to adequately evaluate models' ability to understand and respond to complex, long-horizon scenarios. To address this incomplete evaluation of Large Reasoning Models (LRMs), we propose R-HORIZON, a method designed to stimulate long-horizon reasoning behaviors in LRMs through query composition. Based on R-HORIZON, we construct a long-horizon reasoning benchmark, comprising complex multi-step reasoning tasks with interdependent problems that span long reasoning horizons. Through comprehensive evaluation of LRMs using the R-HORIZON benchmark, we find that even the most advanced LRMs suffer significant performance degradation. Our analysis reveals that LRMs exhibit limited effective reasoning length and struggle to allocate thinking budget across multiple problems appropriately. Recognizing these limitations, we use R-HORIZON to construct long-horizon reasoning data for reinforcement learning with verified rewards (RLVR). Compared to training with single-horizon data, RLVR with R-HORIZON not only substantially improves performance on the multi-horizon reasoning tasks, but also promotes accuracy on standard reasoning tasks, with an increase of 7.5 on AIME2024. These results position R-HORIZON as a scalable, controllable, and low-cost paradigm for enhancing and evaluating the long-horizon reasoning capabilities of LRMs.
PDF252October 13, 2025