R-Horizont: Wie weit kann Ihr großes Reasoning-Modell wirklich in Breite und Tiefe gehen?
R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
October 9, 2025
papers.authors: Yi Lu, Jianing Wang, Linsen Guo, Wei He, Hongyin Tang, Tao Gui, Xuanjing Huang, Xuezhi Cao, Wei Wang, Xunliang Cai
cs.AI
papers.abstract
Aktuelle Trends in der Testzeit-Skalierung für Reasoning-Modelle (z. B. OpenAI o1, DeepSeek-R1) haben durch lange Chain-of-Thought (CoT) bemerkenswerte Verbesserungen erzielt. Bestehende Benchmarks konzentrieren sich jedoch hauptsächlich auf unmittelbare, einstufige Aufgaben und bewerten nicht ausreichend die Fähigkeit von Modellen, komplexe, langfristige Szenarien zu verstehen und darauf zu reagieren. Um diese unvollständige Bewertung von Large Reasoning Models (LRMs) zu adressieren, schlagen wir R-HORIZON vor, eine Methode, die darauf abzielt, langfristige Reasoning-Verhalten in LRMs durch Abfragekomposition zu stimulieren. Basierend auf R-HORIZON konstruieren wir einen Benchmark für langfristiges Reasoning, der komplexe, mehrstufige Reasoning-Aufgaben mit interdependenten Problemen umfasst, die lange Reasoning-Horizonte abdecken. Durch eine umfassende Bewertung von LRMs mit dem R-HORIZON-Benchmark stellen wir fest, dass selbst die fortschrittlichsten LRMs erhebliche Leistungseinbußen aufweisen. Unsere Analyse zeigt, dass LRMs eine begrenzte effektive Reasoning-Länge aufweisen und Schwierigkeiten haben, das Denkbudget angemessen über mehrere Probleme zu verteilen. In Anerkennung dieser Einschränkungen nutzen wir R-HORIZON, um langfristige Reasoning-Daten für Reinforcement Learning mit verifizierten Belohnungen (RLVR) zu konstruieren. Im Vergleich zum Training mit einstufigen Daten verbessert RLVR mit R-HORIZON nicht nur die Leistung bei mehrstufigen Reasoning-Aufgaben erheblich, sondern fördert auch die Genauigkeit bei standardmäßigen Reasoning-Aufgaben, mit einer Steigerung von 7,5 auf AIME2024. Diese Ergebnisse positionieren R-HORIZON als ein skalierbares, kontrollierbares und kostengünstiges Paradigma zur Verbesserung und Bewertung der langfristigen Reasoning-Fähigkeiten von LRMs.
English
Recent trends in test-time scaling for reasoning models (e.g., OpenAI o1,
DeepSeek-R1) have led to remarkable improvements through long Chain-of-Thought
(CoT). However, existing benchmarks mainly focus on immediate, single-horizon
tasks, failing to adequately evaluate models' ability to understand and respond
to complex, long-horizon scenarios. To address this incomplete evaluation of
Large Reasoning Models (LRMs), we propose R-HORIZON, a method designed to
stimulate long-horizon reasoning behaviors in LRMs through query composition.
Based on R-HORIZON, we construct a long-horizon reasoning benchmark, comprising
complex multi-step reasoning tasks with interdependent problems that span long
reasoning horizons. Through comprehensive evaluation of LRMs using the
R-HORIZON benchmark, we find that even the most advanced LRMs suffer
significant performance degradation. Our analysis reveals that LRMs exhibit
limited effective reasoning length and struggle to allocate thinking budget
across multiple problems appropriately. Recognizing these limitations, we use
R-HORIZON to construct long-horizon reasoning data for reinforcement learning
with verified rewards (RLVR). Compared to training with single-horizon data,
RLVR with R-HORIZON not only substantially improves performance on the
multi-horizon reasoning tasks, but also promotes accuracy on standard reasoning
tasks, with an increase of 7.5 on AIME2024. These results position R-HORIZON as
a scalable, controllable, and low-cost paradigm for enhancing and evaluating
the long-horizon reasoning capabilities of LRMs.