InftyThink+: Razonamiento Efectivo y Eficiente en Horizontes Infinitos mediante Aprendizaje por Refuerzo

Resumen

Los grandes modelos de razonamiento logran un alto rendimiento mediante el escalado de cadenas de pensamiento en tiempo de inferencia, pero este paradigma sufre de costos cuadráticos, límites de longitud de contexto y degradación del razonamiento debido a efectos de "pérdida en el medio". El razonamiento iterativo mitiga estos problemas resumiendo periódicamente los pensamientos intermedios, aunque los métodos existentes dependen de aprendizaje supervisado o heurísticas fijas y no optimizan cuándo resumir, qué preservar y cómo reanudar el razonamiento. Proponemos InftyThink+, un marco de aprendizaje por refuerzo de extremo a extremo que optimiza toda la trayectoria de razonamiento iterativo, basándose en límites de iteración controlados por el modelo y una summarización explícita. InftyThink+ adopta un esquema de entrenamiento en dos etapas con un inicio en frío supervisado seguido de aprendizaje por refuerzo a nivel de trayectoria, permitiendo que el modelo aprenda decisiones estratégicas de summarización y continuación. Los experimentos en DeepSeek-R1-Distill-Qwen-1.5B muestran que InftyThink+ mejora la precisión en un 21% en AIME24 y supera claramente al aprendizaje por refuerzo convencional con cadenas de pensamiento largas, además de generalizar mejor a benchmarks fuera de distribución. Además, InftyThink+ reduce significativamente la latencia de inferencia y acelera el entrenamiento por refuerzo, demostrando una eficiencia de razonamiento mejorada junto con un rendimiento más sólido.

English

Large reasoning models achieve strong performance by scaling inference-time chain-of-thought, but this paradigm suffers from quadratic cost, context length limits, and degraded reasoning due to lost-in-the-middle effects. Iterative reasoning mitigates these issues by periodically summarizing intermediate thoughts, yet existing methods rely on supervised learning or fixed heuristics and fail to optimize when to summarize, what to preserve, and how to resume reasoning. We propose InftyThink+, an end-to-end reinforcement learning framework that optimizes the entire iterative reasoning trajectory, building on model-controlled iteration boundaries and explicit summarization. InftyThink+ adopts a two-stage training scheme with supervised cold-start followed by trajectory-level reinforcement learning, enabling the model to learn strategic summarization and continuation decisions. Experiments on DeepSeek-R1-Distill-Qwen-1.5B show that InftyThink+ improves accuracy by 21% on AIME24 and outperforms conventional long chain-of-thought reinforcement learning by a clear margin, while also generalizing better to out-of-distribution benchmarks. Moreover, InftyThink+ significantly reduces inference latency and accelerates reinforcement learning training, demonstrating improved reasoning efficiency alongside stronger performance.