ChatPaper.aiChatPaper

Heroverdenken van Denk-Tokens: LLM's als Verbeteringsoperatoren

Rethinking Thinking Tokens: LLMs as Improvement Operators

October 1, 2025
Auteurs: Lovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev Arora, Anirudh Goyal
cs.AI

Samenvatting

Redenatietraining stimuleert LLM's om lange gedachteketens (lange CoT) te produceren, wat hen onder andere in staat stelt om oplossingsstrategieën te verkennen met zelfcontrole. Dit resulteert in een hogere nauwkeurigheid, maar vergroot de contextlengte, token-/rekencosten en antwoordlatentie. Wij vragen: Kunnen huidige modellen hun metacognitie benutten om andere combinaties op dit Pareto-frontier te bieden, bijvoorbeeld betere nauwkeurigheid met een lagere contextlengte en/of latentie? Abstract gezien beschouwen we het model als een verbeteringsoperator op zijn eigen "gedachten" met een continuüm van mogelijke strategieën. We identificeren een interessante inferentiefamilie Parallel-Distill-Refine (PDR), die het volgende uitvoert: (i) genereer diverse concepten parallel; (ii) destilleer deze in een begrensde, tekstuele werkruimte; en (iii) verfijn op basis van deze werkruimte, waarbij een uitvoer wordt geproduceerd die de volgende ronde initieert. Belangrijk is dat de contextlengte (en dus de rekencosten) beheersbaar is via de mate van parallellisme, en niet langer verward wordt met het totale aantal gegenereerde tokens. We rapporteren PDR-instantiaties van huidige modellen die een betere nauwkeurigheid bieden dan lange CoT, terwijl ze lagere latentie veroorzaken. Het instellen van de mate van parallellisme op 1 levert een interessant subgeval op, Sequentiële Verfijning (SR) (iteratief verbeteren van een enkel kandidaatantwoord), wat prestaties biedt die superieur zijn aan lange CoT. Het succes van dergelijke modelorkestraties roept de vraag op of verdere training het Pareto-frontier zou kunnen verschuiven. Hiertoe trainen we een 8B denkmodel met Reinforcement Learning (RL) om het consistent te maken met PDR als de inferentiemethode. Bij wiskundetaken met verifieerbare antwoorden overtreffen iteratieve pijplijnen single-pass-baselines bij gelijke sequentiële budgetten, waarbij PDR de grootste winsten oplevert (bijvoorbeeld +11% op AIME 2024 en +9% op AIME 2025).
English
Reasoning training incentivizes LLMs to produce long chains of thought (long CoT), which among other things, allows them to explore solution strategies with self-checking. This results in higher accuracy, but inflates context length, token/compute cost, and answer latency. We ask: Can current models leverage their metacognition to provide other combinations on this Pareto frontier, e.g., better accuracy with lower context length and/or latency? Abstractly, we view the model as an improvement operator on its own "thoughts" with a continuum of possible strategies. We identify an interesting inference family Parallel-Distill-Refine (PDR), which performs the following: (i) generate diverse drafts in parallel; (ii) distill them into a bounded, textual workspace; and (iii) refine conditioned on this workspace, producing an output that seeds the next round. Importantly, context length (hence compute cost) is controllable via degree of parallelism, and is no longer conflated with the total number of generated tokens. We report PDR instantiations of current models that give better accuracy than long CoT while incurring lower latency. Setting degree of parallelism to 1 yields an interesting subcase, Sequential Refinement (SR) (iteratively improve a single candidate answer) which provides performance superior to long CoT. Success of such model orchestrations raises the question whether further training could shift the Pareto frontier. To this end, we train an 8B thinking model with Reinforcement Learning (RL) to make it consistent with PDR as the inference method. On math tasks with verifiable answers, iterative pipelines surpass single-pass baselines at matched sequential budgets, with PDR delivering the largest gains (e.g., +11% on AIME 2024 and +9% on AIME 2025).
PDF52October 3, 2025