InftyThink+: Effektives und effizientes Denken in unendlichen Horizonten durch Reinforcement Learning

Zusammenfassung

Große Reasoning-Modelle erzielen hohe Leistung durch Skalierung der Chain-of-Thought-Verfahren zur Inferenzzeit, doch dieses Paradigma leidet unter quadratischen Kosten, Kontextlängenbegrenzungen und verschlechtertem Reasoning aufgrund von Lost-in-the-Middle-Effekten. Iteratives Reasoning mildert diese Probleme durch periodisches Zusammenfassen Zwischengedanken, doch bestehende Methoden verlassen sich auf überwachtes Lernen oder feste Heuristiken und optimieren nicht, wann zusammengefasst werden soll, was erhalten bleiben soll und wie das Reasoning fortgesetzt werden soll. Wir schlagen InftyThink+ vor, ein End-to-End-Verstärkungslernframework, das den gesamten iterativen Reasoning-Pfad optimiert und auf modellgesteuerten Iterationsgrenzen und expliziter Zusammenfassung aufbaut. InftyThink+ verwendet ein zweistufiges Trainingsschema mit überwachtem Kaltstart, gefolgt von pfadebasiertem Verstärkungslernen, das es dem Modell ermöglicht, strategische Zusammenfassungs- und Fortsetzungsentscheidungen zu erlernen. Experimente mit DeepSeek-R1-Distill-Qwen-1.5B zeigen, dass InftyThink+ die Genauigkeit bei AIME24 um 21 % verbessert und konventionelles Long-Chain-of-Thought-Verstärkungslernen deutlich übertrifft, während es sich auch besser auf Out-of-Distribution-Benchmarks verallgemeinert. Darüber hinaus reduziert InftyThink+ die Inferenzlatenz signifikant und beschleunigt das Verstärkungslern-Training, was eine verbesserte Reasoning-Effizienz neben einer stärkeren Leistung demonstriert.

English

Large reasoning models achieve strong performance by scaling inference-time chain-of-thought, but this paradigm suffers from quadratic cost, context length limits, and degraded reasoning due to lost-in-the-middle effects. Iterative reasoning mitigates these issues by periodically summarizing intermediate thoughts, yet existing methods rely on supervised learning or fixed heuristics and fail to optimize when to summarize, what to preserve, and how to resume reasoning. We propose InftyThink+, an end-to-end reinforcement learning framework that optimizes the entire iterative reasoning trajectory, building on model-controlled iteration boundaries and explicit summarization. InftyThink+ adopts a two-stage training scheme with supervised cold-start followed by trajectory-level reinforcement learning, enabling the model to learn strategic summarization and continuation decisions. Experiments on DeepSeek-R1-Distill-Qwen-1.5B show that InftyThink+ improves accuracy by 21% on AIME24 and outperforms conventional long chain-of-thought reinforcement learning by a clear margin, while also generalizing better to out-of-distribution benchmarks. Moreover, InftyThink+ significantly reduces inference latency and accelerates reinforcement learning training, demonstrating improved reasoning efficiency alongside stronger performance.

InftyThink+: Effektives und effizientes Denken in unendlichen Horizonten durch Reinforcement Learning

InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

Zusammenfassung

Support