R-Horizon: Fino a Dove Può Davvero Arrivare il Tuo Modello di Ragionamento su Grande Scala in Ampiezza e Profondità?
R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
October 9, 2025
Autori: Yi Lu, Jianing Wang, Linsen Guo, Wei He, Hongyin Tang, Tao Gui, Xuanjing Huang, Xuezhi Cao, Wei Wang, Xunliang Cai
cs.AI
Abstract
Le recenti tendenze nel ridimensionamento al momento del test per i modelli di ragionamento (ad esempio, OpenAI o1, DeepSeek-R1) hanno portato a miglioramenti significativi attraverso lunghe catene di pensiero (Chain-of-Thought, CoT). Tuttavia, i benchmark esistenti si concentrano principalmente su compiti immediati e a singolo orizzonte, non riuscendo a valutare adeguatamente la capacità dei modelli di comprendere e rispondere a scenari complessi e a lungo orizzonte. Per affrontare questa valutazione incompleta dei Large Reasoning Models (LRM), proponiamo R-HORIZON, un metodo progettato per stimolare comportamenti di ragionamento a lungo orizzonte negli LRM attraverso la composizione di query. Basandoci su R-HORIZON, costruiamo un benchmark di ragionamento a lungo orizzonte, comprendente compiti complessi di ragionamento multi-step con problemi interdipendenti che si estendono su lunghi orizzonti di ragionamento. Attraverso una valutazione completa degli LRM utilizzando il benchmark R-HORIZON, scopriamo che anche i LRM più avanzati subiscono un significativo degrado delle prestazioni. La nostra analisi rivela che gli LRM mostrano una lunghezza effettiva di ragionamento limitata e faticano a distribuire il budget di pensiero su più problemi in modo appropriato. Riconoscendo queste limitazioni, utilizziamo R-HORIZON per costruire dati di ragionamento a lungo orizzonte per il reinforcement learning con ricompense verificate (RLVR). Rispetto all'addestramento con dati a singolo orizzonte, RLVR con R-HORIZON non solo migliora sostanzialmente le prestazioni nei compiti di ragionamento multi-orizzonte, ma promuove anche l'accuratezza nei compiti di ragionamento standard, con un aumento di 7,5 su AIME2024. Questi risultati posizionano R-HORIZON come un paradigma scalabile, controllabile e a basso costo per migliorare e valutare le capacità di ragionamento a lungo orizzonte degli LRM.
English
Recent trends in test-time scaling for reasoning models (e.g., OpenAI o1,
DeepSeek-R1) have led to remarkable improvements through long Chain-of-Thought
(CoT). However, existing benchmarks mainly focus on immediate, single-horizon
tasks, failing to adequately evaluate models' ability to understand and respond
to complex, long-horizon scenarios. To address this incomplete evaluation of
Large Reasoning Models (LRMs), we propose R-HORIZON, a method designed to
stimulate long-horizon reasoning behaviors in LRMs through query composition.
Based on R-HORIZON, we construct a long-horizon reasoning benchmark, comprising
complex multi-step reasoning tasks with interdependent problems that span long
reasoning horizons. Through comprehensive evaluation of LRMs using the
R-HORIZON benchmark, we find that even the most advanced LRMs suffer
significant performance degradation. Our analysis reveals that LRMs exhibit
limited effective reasoning length and struggle to allocate thinking budget
across multiple problems appropriately. Recognizing these limitations, we use
R-HORIZON to construct long-horizon reasoning data for reinforcement learning
with verified rewards (RLVR). Compared to training with single-horizon data,
RLVR with R-HORIZON not only substantially improves performance on the
multi-horizon reasoning tasks, but also promotes accuracy on standard reasoning
tasks, with an increase of 7.5 on AIME2024. These results position R-HORIZON as
a scalable, controllable, and low-cost paradigm for enhancing and evaluating
the long-horizon reasoning capabilities of LRMs.