Ripensare i Token di Pensiero: i Modelli Linguistici come Operatori di Miglioramento
Rethinking Thinking Tokens: LLMs as Improvement Operators
October 1, 2025
Autori: Lovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev Arora, Anirudh Goyal
cs.AI
Abstract
L'addestramento al ragionamento incentiva i modelli linguistici di grandi dimensioni (LLM) a produrre lunghe catene di pensiero (long CoT), il che, tra le altre cose, consente loro di esplorare strategie di soluzione con autocontrollo. Ciò si traduce in una maggiore accuratezza, ma aumenta la lunghezza del contesto, il costo computazionale/token e la latenza delle risposte. Ci chiediamo: i modelli attuali possono sfruttare la loro metacognizione per fornire altre combinazioni su questa frontiera di Pareto, ad esempio una migliore accuratezza con una lunghezza del contesto e/o una latenza inferiori? In astratto, consideriamo il modello come un operatore di miglioramento sui propri "pensieri" con un continuum di strategie possibili. Identifichiamo un'interessante famiglia di inferenze, Parallel-Distill-Refine (PDR), che esegue le seguenti operazioni: (i) genera bozze diverse in parallelo; (ii) le distilla in un'area di lavoro testuale limitata; e (iii) le raffina condizionandole su questa area di lavoro, producendo un output che alimenta il round successivo. È importante notare che la lunghezza del contesto (e quindi il costo computazionale) è controllabile tramite il grado di parallelismo e non è più confusa con il numero totale di token generati. Riportiamo istanze PDR di modelli attuali che offrono una migliore accuratezza rispetto alle long CoT pur avendo una latenza inferiore. Impostando il grado di parallelismo a 1 si ottiene un interessante sottocaso, il Sequential Refinement (SR) (miglioramento iterativo di una singola risposta candidata), che fornisce prestazioni superiori alle long CoT. Il successo di tali orchestrazioni di modelli solleva la questione se un ulteriore addestramento potrebbe spostare la frontiera di Pareto. A tal fine, addestriamo un modello di pensiero da 8B con Reinforcement Learning (RL) per renderlo coerente con PDR come metodo di inferenza. Su compiti matematici con risposte verificabili, pipeline iterative superano le baseline a passaggio singolo con budget sequenziali equivalenti, con PDR che fornisce i maggiori guadagni (ad esempio, +11% su AIME 2024 e +9% su AIME 2025).
English
Reasoning training incentivizes LLMs to produce long chains of thought (long
CoT), which among other things, allows them to explore solution strategies with
self-checking. This results in higher accuracy, but inflates context length,
token/compute cost, and answer latency. We ask: Can current models leverage
their metacognition to provide other combinations on this Pareto frontier,
e.g., better accuracy with lower context length and/or latency? Abstractly, we
view the model as an improvement operator on its own "thoughts" with a
continuum of possible strategies. We identify an interesting inference family
Parallel-Distill-Refine (PDR), which performs the following: (i) generate
diverse drafts in parallel; (ii) distill them into a bounded, textual
workspace; and (iii) refine conditioned on this workspace, producing an output
that seeds the next round. Importantly, context length (hence compute cost) is
controllable via degree of parallelism, and is no longer conflated with the
total number of generated tokens. We report PDR instantiations of current
models that give better accuracy than long CoT while incurring lower latency.
Setting degree of parallelism to 1 yields an interesting subcase, Sequential
Refinement (SR) (iteratively improve a single candidate answer) which provides
performance superior to long CoT. Success of such model orchestrations raises
the question whether further training could shift the Pareto frontier. To this
end, we train an 8B thinking model with Reinforcement Learning (RL) to make it
consistent with PDR as the inference method. On math tasks with verifiable
answers, iterative pipelines surpass single-pass baselines at matched
sequential budgets, with PDR delivering the largest gains (e.g., +11% on AIME
2024 and +9% on AIME 2025).