Replanteando los tokens de pensamiento: los LLM como operadores de mejora

Resumen

El entrenamiento en razonamiento incentiva a los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) a producir cadenas de pensamiento largas (long CoT), lo que, entre otras cosas, les permite explorar estrategias de solución con autoverificación. Esto resulta en una mayor precisión, pero incrementa la longitud del contexto, el costo de tokens/computación y la latencia de respuesta. Nos preguntamos: ¿Pueden los modelos actuales aprovechar su metacognición para ofrecer otras combinaciones en esta frontera de Pareto, por ejemplo, una mejor precisión con una menor longitud de contexto y/o latencia? De manera abstracta, vemos al modelo como un operador de mejora sobre sus propios "pensamientos" con un continuo de estrategias posibles. Identificamos una familia de inferencias interesante llamada Paralelizar-Destilar-Refinar (PDR), que realiza lo siguiente: (i) genera borradores diversos en paralelo; (ii) los destila en un espacio de trabajo textual acotado; y (iii) refina condicionado a este espacio de trabajo, produciendo una salida que sirve como semilla para la siguiente ronda. Importante, la longitud del contexto (y por ende el costo de computación) es controlable mediante el grado de paralelismo y ya no se confunde con el número total de tokens generados. Reportamos instancias de PDR en modelos actuales que ofrecen una mejor precisión que long CoT mientras incurren en una menor latencia. Al establecer el grado de paralelismo en 1, se obtiene un subcaso interesante, el Refinamiento Secuencial (SR) (mejorar iterativamente una única respuesta candidata), que proporciona un rendimiento superior a long CoT. El éxito de tales orquestaciones de modelos plantea la pregunta de si un entrenamiento adicional podría desplazar la frontera de Pareto. Con este fin, entrenamos un modelo de pensamiento de 8B con Aprendizaje por Refuerzo (RL) para hacerlo consistente con PDR como método de inferencia. En tareas matemáticas con respuestas verificables, los pipelines iterativos superan a las líneas base de un solo paso con presupuestos secuenciales equivalentes, siendo PDR el que ofrece las mayores mejoras (por ejemplo, +11% en AIME 2024 y +9% en AIME 2025).

English

Reasoning training incentivizes LLMs to produce long chains of thought (long CoT), which among other things, allows them to explore solution strategies with self-checking. This results in higher accuracy, but inflates context length, token/compute cost, and answer latency. We ask: Can current models leverage their metacognition to provide other combinations on this Pareto frontier, e.g., better accuracy with lower context length and/or latency? Abstractly, we view the model as an improvement operator on its own "thoughts" with a continuum of possible strategies. We identify an interesting inference family Parallel-Distill-Refine (PDR), which performs the following: (i) generate diverse drafts in parallel; (ii) distill them into a bounded, textual workspace; and (iii) refine conditioned on this workspace, producing an output that seeds the next round. Importantly, context length (hence compute cost) is controllable via degree of parallelism, and is no longer conflated with the total number of generated tokens. We report PDR instantiations of current models that give better accuracy than long CoT while incurring lower latency. Setting degree of parallelism to 1 yields an interesting subcase, Sequential Refinement (SR) (iteratively improve a single candidate answer) which provides performance superior to long CoT. Success of such model orchestrations raises the question whether further training could shift the Pareto frontier. To this end, we train an 8B thinking model with Reinforcement Learning (RL) to make it consistent with PDR as the inference method. On math tasks with verifiable answers, iterative pipelines surpass single-pass baselines at matched sequential budgets, with PDR delivering the largest gains (e.g., +11% on AIME 2024 and +9% on AIME 2025).

Replanteando los tokens de pensamiento: los LLM como operadores de mejora

Rethinking Thinking Tokens: LLMs as Improvement Operators

Resumen

Support