InftyThink+: Effectieve en Efficiënte Redenering over Oneindige Horizons via Reinforcement Learning

Samenvatting

Grote redeneermodellen behalen sterke prestaties door schaalbare chain-of-thought tijdens inferentie, maar dit paradigma lijdt onder kwadratische kosten, contextlengtebeperkingen en verslechterd redeneren door lost-in-the-middle effecten. Iteratief redeneren verzacht deze problemen door periodiek tussenliggende gedachten samen te vatten, maar bestaande methoden vertrouwen op supervised learning of vaste heuristieken en slagen er niet in te optimaliseren wanneer samengevat moet worden, wat bewaard moet blijven en hoe het redeneren hervat moet worden. Wij stellen InftyThink+ voor, een end-to-end reinforcement learning raamwerk dat de volledige iteratieve redeneertraject optimaliseert, gebaseerd op model-gestuurde iteratiegrenzen en expliciete samenvatting. InftyThink+ hanteert een tweefasen-trainingsschema met supervised cold-start gevolgd door trajectniveau reinforcement learning, waardoor het model strategische samenvattings- en vervolgbeslissingen kan leren. Experimenten op DeepSeek-R1-Distill-Qwen-1.5B tonen aan dat InftyThink+ de nauwkeurigheid met 21% verbetert op AIME24 en conventionele lange chain-of-thought reinforcement learning duidelijk overtreft, terwijl het ook beter generaliseert naar out-of-distribution benchmarks. Bovendien vermindert InftyThink+ de inferentielatentie significant en versnelt het de reinforcement learning training, wat wijst op verbeterde redeneerefficiëntie naast sterkere prestaties.

English

Large reasoning models achieve strong performance by scaling inference-time chain-of-thought, but this paradigm suffers from quadratic cost, context length limits, and degraded reasoning due to lost-in-the-middle effects. Iterative reasoning mitigates these issues by periodically summarizing intermediate thoughts, yet existing methods rely on supervised learning or fixed heuristics and fail to optimize when to summarize, what to preserve, and how to resume reasoning. We propose InftyThink+, an end-to-end reinforcement learning framework that optimizes the entire iterative reasoning trajectory, building on model-controlled iteration boundaries and explicit summarization. InftyThink+ adopts a two-stage training scheme with supervised cold-start followed by trajectory-level reinforcement learning, enabling the model to learn strategic summarization and continuation decisions. Experiments on DeepSeek-R1-Distill-Qwen-1.5B show that InftyThink+ improves accuracy by 21% on AIME24 and outperforms conventional long chain-of-thought reinforcement learning by a clear margin, while also generalizing better to out-of-distribution benchmarks. Moreover, InftyThink+ significantly reduces inference latency and accelerates reinforcement learning training, demonstrating improved reasoning efficiency alongside stronger performance.

InftyThink+: Effectieve en Efficiënte Redenering over Oneindige Horizons via Reinforcement Learning

InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

Samenvatting

Support