InftyThink+: Raciocínio Eficaz e Eficiente em Horizontes Infinitos por meio de Aprendizado por Reforço

Resumo

Os grandes modelos de raciocínio alcançam forte desempenho através da escalagem da cadeia de pensamento (chain-of-thought) em tempo de inferência, mas este paradigma sofre com custo quadrático, limites de contexto e degradação do raciocínio devido a efeitos de "perdido-no-meio". O raciocínio iterativo mitiga estes problemas através da sumarização periódica de pensamentos intermédios, contudo os métodos existentes dependem de aprendizagem supervisionada ou heurísticas fixas, falhando em otimizar quando sumarizar, o que preservar e como retomar o raciocínio. Propomos o InftyThink+, uma estrutura de aprendizagem por reforço de ponta a ponta que otimiza toda a trajetória de raciocínio iterativo, baseando-se em limites de iteração controlados pelo modelo e sumarização explícita. O InftyThink+ adota um esquema de treino em duas fases com início a frio supervisionado seguido de aprendizagem por reforço a nível de trajetória, permitindo que o modelo aprenda decisões estratégicas de sumarização e continuação. Experiências no DeepSeek-R1-Distill-Qwen-1.5B mostram que o InftyThink+ melhora a precisão em 21% no AIME24 e supera a aprendizagem por reforço convencional de cadeia longa de pensamento por uma margem clara, ao mesmo tempo que generaliza melhor para benchmarks fora da distribuição. Além disso, o InftyThink+ reduz significativamente a latência de inferência e acelera o treino de aprendizagem por reforço, demonstrando eficiência de raciocínio melhorada juntamente com um desempenho mais forte.

English

Large reasoning models achieve strong performance by scaling inference-time chain-of-thought, but this paradigm suffers from quadratic cost, context length limits, and degraded reasoning due to lost-in-the-middle effects. Iterative reasoning mitigates these issues by periodically summarizing intermediate thoughts, yet existing methods rely on supervised learning or fixed heuristics and fail to optimize when to summarize, what to preserve, and how to resume reasoning. We propose InftyThink+, an end-to-end reinforcement learning framework that optimizes the entire iterative reasoning trajectory, building on model-controlled iteration boundaries and explicit summarization. InftyThink+ adopts a two-stage training scheme with supervised cold-start followed by trajectory-level reinforcement learning, enabling the model to learn strategic summarization and continuation decisions. Experiments on DeepSeek-R1-Distill-Qwen-1.5B show that InftyThink+ improves accuracy by 21% on AIME24 and outperforms conventional long chain-of-thought reinforcement learning by a clear margin, while also generalizing better to out-of-distribution benchmarks. Moreover, InftyThink+ significantly reduces inference latency and accelerates reinforcement learning training, demonstrating improved reasoning efficiency alongside stronger performance.

InftyThink+: Raciocínio Eficaz e Eficiente em Horizontes Infinitos por meio de Aprendizado por Reforço

InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

Resumo

Support