R-Horizon: Hoe Ver Kan Uw Grote Redeneermodel Echt Gaan in Breedte en Diepte?
R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
October 9, 2025
Auteurs: Yi Lu, Jianing Wang, Linsen Guo, Wei He, Hongyin Tang, Tao Gui, Xuanjing Huang, Xuezhi Cao, Wei Wang, Xunliang Cai
cs.AI
Samenvatting
Recente ontwikkelingen in test-time scaling voor redeneermodellen (bijv. OpenAI o1, DeepSeek-R1) hebben tot opmerkelijke verbeteringen geleid door middel van lange Chain-of-Thought (CoT). Bestaande benchmarks richten zich echter voornamelijk op directe, enkelvoudige taken, waardoor ze onvoldoende in staat zijn om het vermogen van modellen om complexe, langetermijnscenario's te begrijpen en erop te reageren, te evalueren. Om deze onvolledige evaluatie van Large Reasoning Models (LRMs) aan te pakken, stellen we R-HORIZON voor, een methode die is ontworpen om langetermijnredeneergedrag in LRMs te stimuleren door middel van querycompositie. Op basis van R-HORIZON construeren we een langetermijnredeneerbenchmark, bestaande uit complexe meerstapsredeneertaken met onderling afhankelijke problemen die zich uitstrekken over lange redeneerhorizons. Door middel van een uitgebreide evaluatie van LRMs met behulp van de R-HORIZON-benchmark, ontdekken we dat zelfs de meest geavanceerde LRMs aanzienlijke prestatievermindering vertonen. Onze analyse toont aan dat LRMs een beperkte effectieve redeneerlengte hebben en moeite hebben om het denkbudget over meerdere problemen op de juiste manier toe te wijzen. Gezien deze beperkingen gebruiken we R-HORIZON om langetermijnredeneerdata te construeren voor reinforcement learning met geverifieerde beloningen (RLVR). Vergeleken met training met enkelvoudige data, verbetert RLVR met R-HORIZON niet alleen aanzienlijk de prestaties op meerhorizonredeneertaken, maar bevordert het ook de nauwkeurigheid op standaardredeneertaken, met een toename van 7,5 op AIME2024. Deze resultaten positioneren R-HORIZON als een schaalbare, controleerbare en kosteneffectieve paradigma voor het verbeteren en evalueren van de langetermijnredeneercapaciteiten van LRMs.
English
Recent trends in test-time scaling for reasoning models (e.g., OpenAI o1,
DeepSeek-R1) have led to remarkable improvements through long Chain-of-Thought
(CoT). However, existing benchmarks mainly focus on immediate, single-horizon
tasks, failing to adequately evaluate models' ability to understand and respond
to complex, long-horizon scenarios. To address this incomplete evaluation of
Large Reasoning Models (LRMs), we propose R-HORIZON, a method designed to
stimulate long-horizon reasoning behaviors in LRMs through query composition.
Based on R-HORIZON, we construct a long-horizon reasoning benchmark, comprising
complex multi-step reasoning tasks with interdependent problems that span long
reasoning horizons. Through comprehensive evaluation of LRMs using the
R-HORIZON benchmark, we find that even the most advanced LRMs suffer
significant performance degradation. Our analysis reveals that LRMs exhibit
limited effective reasoning length and struggle to allocate thinking budget
across multiple problems appropriately. Recognizing these limitations, we use
R-HORIZON to construct long-horizon reasoning data for reinforcement learning
with verified rewards (RLVR). Compared to training with single-horizon data,
RLVR with R-HORIZON not only substantially improves performance on the
multi-horizon reasoning tasks, but also promotes accuracy on standard reasoning
tasks, with an increase of 7.5 on AIME2024. These results position R-HORIZON as
a scalable, controllable, and low-cost paradigm for enhancing and evaluating
the long-horizon reasoning capabilities of LRMs.