InftyThink+: Ragionamento Efficace ed Efficiente su Orizzonte Infinito tramite Apprendimento per Rinforzo

Abstract

I grandi modelli di ragionamento ottengono prestazioni elevate grazie al ridimensionamento della chain-of-thought al momento dell'inferenza, ma questo paradigma soffre di costi quadratici, limiti di lunghezza del contesto e di un ragionamento degradato a causa degli effetti "lost-in-the-middle". Il ragionamento iterativo mitiga questi problemi riassumendo periodicamente i pensieri intermedi, tuttavia i metodi esistenti si basano su apprendimento supervisionato o euristiche fisse e non ottimizzano quando riassumere, cosa preservare e come riprendere il ragionamento. Proponiamo InftyThink+, un framework di reinforcement learning end-to-end che ottimizza l'intera traiettoria di ragionamento iterativo, basandosi su limiti di iterazione controllati dal modello e sulla summarizzazione esplicita. InftyThink+ adotta uno schema di addestramento in due fasi con un cold-start supervisionato seguito da reinforcement learning a livello di traiettoria, consentendo al modello di apprendere decisioni strategiche di summarizzazione e continuazione. Esperimenti su DeepSeek-R1-Distill-Qwen-1.5B mostrano che InftyThink+ migliora l'accuratezza del 21% su AIME24 e supera di netto il tradizionale reinforcement learning su lunghe chain-of-thought, generalizzando anche meglio su benchmark out-of-distribution. Inoltre, InftyThink+ riduce significativamente la latenza di inferenza e accelera l'addestramento con reinforcement learning, dimostrando un'efficienza di ragionamento migliorata insieme a prestazioni più solide.

English

Large reasoning models achieve strong performance by scaling inference-time chain-of-thought, but this paradigm suffers from quadratic cost, context length limits, and degraded reasoning due to lost-in-the-middle effects. Iterative reasoning mitigates these issues by periodically summarizing intermediate thoughts, yet existing methods rely on supervised learning or fixed heuristics and fail to optimize when to summarize, what to preserve, and how to resume reasoning. We propose InftyThink+, an end-to-end reinforcement learning framework that optimizes the entire iterative reasoning trajectory, building on model-controlled iteration boundaries and explicit summarization. InftyThink+ adopts a two-stage training scheme with supervised cold-start followed by trajectory-level reinforcement learning, enabling the model to learn strategic summarization and continuation decisions. Experiments on DeepSeek-R1-Distill-Qwen-1.5B show that InftyThink+ improves accuracy by 21% on AIME24 and outperforms conventional long chain-of-thought reinforcement learning by a clear margin, while also generalizing better to out-of-distribution benchmarks. Moreover, InftyThink+ significantly reduces inference latency and accelerates reinforcement learning training, demonstrating improved reasoning efficiency alongside stronger performance.

InftyThink+: Ragionamento Efficace ed Efficiente su Orizzonte Infinito tramite Apprendimento per Rinforzo

InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

Abstract

Support