ChatPaper.aiChatPaper

Repensando os Tokens de Pensamento: LLMs como Operadores de Melhoria

Rethinking Thinking Tokens: LLMs as Improvement Operators

October 1, 2025
Autores: Lovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev Arora, Anirudh Goyal
cs.AI

Resumo

O treinamento de raciocínio incentiva os LLMs a produzir longas cadeias de pensamento (long CoT), o que, entre outras coisas, permite que explorem estratégias de solução com auto-verificação. Isso resulta em maior precisão, mas inflaciona o comprimento do contexto, o custo de tokens/computação e a latência das respostas. Perguntamos: os modelos atuais podem aproveitar sua metacognição para fornecer outras combinações nessa fronteira de Pareto, por exemplo, melhor precisão com menor comprimento de contexto e/ou latência? Abstratamente, vemos o modelo como um operador de melhoria em seus próprios "pensamentos" com um contínuo de estratégias possíveis. Identificamos uma família interessante de inferência, Parallel-Distill-Refine (PDR), que realiza o seguinte: (i) gera rascunhos diversos em paralelo; (ii) os destila em um espaço de trabalho textual limitado; e (iii) refina condicionado a esse espaço de trabalho, produzindo uma saída que alimenta a próxima rodada. Importante, o comprimento do contexto (e, portanto, o custo de computação) é controlável pelo grau de paralelismo e não está mais confundido com o número total de tokens gerados. Relatamos instanciações de PDR em modelos atuais que oferecem melhor precisão do que o long CoT, enquanto incorrem em menor latência. Definir o grau de paralelismo como 1 resulta em um subcaso interessante, o Sequential Refinement (SR) (melhoria iterativa de uma única resposta candidata), que fornece desempenho superior ao long CoT. O sucesso dessas orquestrações de modelos levanta a questão de se um treinamento adicional poderia deslocar a fronteira de Pareto. Para isso, treinamos um modelo de pensamento de 8B com Reinforcement Learning (RL) para torná-lo consistente com o PDR como método de inferência. Em tarefas matemáticas com respostas verificáveis, pipelines iterativos superam as linhas de base de passagem única em orçamentos sequenciais correspondentes, com o PDR fornecendo os maiores ganhos (por exemplo, +11% no AIME 2024 e +9% no AIME 2025).
English
Reasoning training incentivizes LLMs to produce long chains of thought (long CoT), which among other things, allows them to explore solution strategies with self-checking. This results in higher accuracy, but inflates context length, token/compute cost, and answer latency. We ask: Can current models leverage their metacognition to provide other combinations on this Pareto frontier, e.g., better accuracy with lower context length and/or latency? Abstractly, we view the model as an improvement operator on its own "thoughts" with a continuum of possible strategies. We identify an interesting inference family Parallel-Distill-Refine (PDR), which performs the following: (i) generate diverse drafts in parallel; (ii) distill them into a bounded, textual workspace; and (iii) refine conditioned on this workspace, producing an output that seeds the next round. Importantly, context length (hence compute cost) is controllable via degree of parallelism, and is no longer conflated with the total number of generated tokens. We report PDR instantiations of current models that give better accuracy than long CoT while incurring lower latency. Setting degree of parallelism to 1 yields an interesting subcase, Sequential Refinement (SR) (iteratively improve a single candidate answer) which provides performance superior to long CoT. Success of such model orchestrations raises the question whether further training could shift the Pareto frontier. To this end, we train an 8B thinking model with Reinforcement Learning (RL) to make it consistent with PDR as the inference method. On math tasks with verifiable answers, iterative pipelines surpass single-pass baselines at matched sequential budgets, with PDR delivering the largest gains (e.g., +11% on AIME 2024 and +9% on AIME 2025).
PDF52October 3, 2025