Replanteando los tokens de pensamiento: los LLM como operadores de mejora
Rethinking Thinking Tokens: LLMs as Improvement Operators
October 1, 2025
Autores: Lovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev Arora, Anirudh Goyal
cs.AI
Resumen
El entrenamiento en razonamiento incentiva a los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) a producir cadenas de pensamiento largas (long CoT), lo que, entre otras cosas, les permite explorar estrategias de solución con autoverificación. Esto resulta en una mayor precisión, pero incrementa la longitud del contexto, el costo de tokens/computación y la latencia de respuesta. Nos preguntamos: ¿Pueden los modelos actuales aprovechar su metacognición para ofrecer otras combinaciones en esta frontera de Pareto, por ejemplo, una mejor precisión con una menor longitud de contexto y/o latencia? De manera abstracta, vemos al modelo como un operador de mejora sobre sus propios "pensamientos" con un continuo de estrategias posibles. Identificamos una familia de inferencias interesante llamada Paralelizar-Destilar-Refinar (PDR), que realiza lo siguiente: (i) genera borradores diversos en paralelo; (ii) los destila en un espacio de trabajo textual acotado; y (iii) refina condicionado a este espacio de trabajo, produciendo una salida que sirve como semilla para la siguiente ronda. Importante, la longitud del contexto (y por ende el costo de computación) es controlable mediante el grado de paralelismo y ya no se confunde con el número total de tokens generados. Reportamos instancias de PDR en modelos actuales que ofrecen una mejor precisión que long CoT mientras incurren en una menor latencia. Al establecer el grado de paralelismo en 1, se obtiene un subcaso interesante, el Refinamiento Secuencial (SR) (mejorar iterativamente una única respuesta candidata), que proporciona un rendimiento superior a long CoT. El éxito de tales orquestaciones de modelos plantea la pregunta de si un entrenamiento adicional podría desplazar la frontera de Pareto. Con este fin, entrenamos un modelo de pensamiento de 8B con Aprendizaje por Refuerzo (RL) para hacerlo consistente con PDR como método de inferencia. En tareas matemáticas con respuestas verificables, los pipelines iterativos superan a las líneas base de un solo paso con presupuestos secuenciales equivalentes, siendo PDR el que ofrece las mayores mejoras (por ejemplo, +11% en AIME 2024 y +9% en AIME 2025).
English
Reasoning training incentivizes LLMs to produce long chains of thought (long
CoT), which among other things, allows them to explore solution strategies with
self-checking. This results in higher accuracy, but inflates context length,
token/compute cost, and answer latency. We ask: Can current models leverage
their metacognition to provide other combinations on this Pareto frontier,
e.g., better accuracy with lower context length and/or latency? Abstractly, we
view the model as an improvement operator on its own "thoughts" with a
continuum of possible strategies. We identify an interesting inference family
Parallel-Distill-Refine (PDR), which performs the following: (i) generate
diverse drafts in parallel; (ii) distill them into a bounded, textual
workspace; and (iii) refine conditioned on this workspace, producing an output
that seeds the next round. Importantly, context length (hence compute cost) is
controllable via degree of parallelism, and is no longer conflated with the
total number of generated tokens. We report PDR instantiations of current
models that give better accuracy than long CoT while incurring lower latency.
Setting degree of parallelism to 1 yields an interesting subcase, Sequential
Refinement (SR) (iteratively improve a single candidate answer) which provides
performance superior to long CoT. Success of such model orchestrations raises
the question whether further training could shift the Pareto frontier. To this
end, we train an 8B thinking model with Reinforcement Learning (RL) to make it
consistent with PDR as the inference method. On math tasks with verifiable
answers, iterative pipelines surpass single-pass baselines at matched
sequential budgets, with PDR delivering the largest gains (e.g., +11% on AIME
2024 and +9% on AIME 2025).