InftyThink+ : Raisonnement efficace et efficient sur un horizon infini par apprentissage par renforcement

Résumé

Les grands modèles de raisonnement obtiennent des performances élevées grâce à la mise à l'échelle des chaînes de pensée lors de l'inférence, mais ce paradigme souffre d'un coût quadratique, de limites de longueur de contexte et d'une dégradation du raisonnement due aux effets de perte au milieu. Le raisonnement itératif atténue ces problèmes en résumant périodiquement les pensées intermédiaires, mais les méthodes existantes reposent sur de l'apprentissage supervisé ou des heuristiques fixes et échouent à optimiser le moment de résumer, les éléments à préserver et la manière de reprendre le raisonnement. Nous proposons InftyThink+, un cadre d'apprentissage par renforcement de bout en bout qui optimise l'ensemble de la trajectoire de raisonnement itératif, en s'appuyant sur des limites d'itération contrôlées par le modèle et une sommarisation explicite. InftyThink+ adopte un schéma d'entraînement en deux étapes avec un démarrage à froid supervisé suivi d'un apprentissage par renforcement au niveau de la trajectoire, permettant au modèle d'apprendre des décisions stratégiques de sommarisation et de continuation. Les expériences sur DeepSeek-R1-Distill-Qwen-1.5B montrent qu'InftyThink+ amène une amélioration de 21% sur AIME24 et surpasse l'apprentissage par renforcement conventionnel avec de longues chaînes de pensée par une marge significative, tout en généralisant mieux à des benchmarks hors distribution. De plus, InftyThink+ réduit considérablement la latence d'inférence et accélère l'entraînement par renforcement, démontrant une efficacité de raisonnement améliorée parallèlement à de meilleures performances.

English

Large reasoning models achieve strong performance by scaling inference-time chain-of-thought, but this paradigm suffers from quadratic cost, context length limits, and degraded reasoning due to lost-in-the-middle effects. Iterative reasoning mitigates these issues by periodically summarizing intermediate thoughts, yet existing methods rely on supervised learning or fixed heuristics and fail to optimize when to summarize, what to preserve, and how to resume reasoning. We propose InftyThink+, an end-to-end reinforcement learning framework that optimizes the entire iterative reasoning trajectory, building on model-controlled iteration boundaries and explicit summarization. InftyThink+ adopts a two-stage training scheme with supervised cold-start followed by trajectory-level reinforcement learning, enabling the model to learn strategic summarization and continuation decisions. Experiments on DeepSeek-R1-Distill-Qwen-1.5B show that InftyThink+ improves accuracy by 21% on AIME24 and outperforms conventional long chain-of-thought reinforcement learning by a clear margin, while also generalizing better to out-of-distribution benchmarks. Moreover, InftyThink+ significantly reduces inference latency and accelerates reinforcement learning training, demonstrating improved reasoning efficiency alongside stronger performance.

InftyThink+ : Raisonnement efficace et efficient sur un horizon infini par apprentissage par renforcement

InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

Résumé

Support