Neubewertung von Denk-Tokens: LLMs als Verbesserungsoperatoren
Rethinking Thinking Tokens: LLMs as Improvement Operators
October 1, 2025
papers.authors: Lovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev Arora, Anirudh Goyal
cs.AI
papers.abstract
Reasoning-Training motiviert LLMs dazu, lange Gedankenketten (long CoT) zu erzeugen, was es ihnen unter anderem ermöglicht, Lösungsstrategien mit Selbstüberprüfung zu erkunden. Dies führt zu einer höheren Genauigkeit, erhöht jedoch die Kontextlänge, die Token-/Rechenkosten und die Antwortlatenz. Wir fragen: Können aktuelle Modelle ihre Metakognition nutzen, um andere Kombinationen auf dieser Pareto-Grenze zu bieten, z. B. eine bessere Genauigkeit bei geringerer Kontextlänge und/oder Latenz? Abstrakt betrachten wir das Modell als einen Verbesserungsoperator für seine eigenen „Gedanken“ mit einem Kontinuum möglicher Strategien. Wir identifizieren eine interessante Inferenzfamilie, Parallel-Distill-Refine (PDR), die folgendes durchführt: (i) Erzeugung diverser Entwürfe parallel; (ii) Destillation dieser in einen begrenzten, textuellen Arbeitsbereich; und (iii) Verfeinerung basierend auf diesem Arbeitsbereich, wodurch ein Ausgabe erzeugt wird, die die nächste Runde initiiert. Wichtig ist, dass die Kontextlänge (und damit die Rechenkosten) über den Grad der Parallelität steuerbar ist und nicht mehr mit der Gesamtzahl der generierten Token verwechselt wird. Wir berichten über PDR-Instanzen aktueller Modelle, die eine bessere Genauigkeit als long CoT bieten, während sie eine geringere Latenz verursachen. Die Einstellung des Parallelitätsgrads auf 1 ergibt einen interessanten Unterfall, Sequential Refinement (SR) (iterative Verbesserung einer einzelnen Kandidatenantwort), der eine überlegene Leistung gegenüber long CoT bietet. Der Erfolg solcher Modell-Orchestrierungen wirft die Frage auf, ob weiteres Training die Pareto-Grenze verschieben könnte. Zu diesem Zweck trainieren wir ein 8B-Denkmodell mit Reinforcement Learning (RL), um es mit PDR als Inferenzmethode konsistent zu machen. Bei mathematischen Aufgaben mit überprüfbaren Antworten übertreffen iterative Pipelines Einzel-Durchlauf-Baselines bei gleichen sequenziellen Budgets, wobei PDR die größten Gewinne liefert (z. B. +11 % bei AIME 2024 und +9 % bei AIME 2025).
English
Reasoning training incentivizes LLMs to produce long chains of thought (long
CoT), which among other things, allows them to explore solution strategies with
self-checking. This results in higher accuracy, but inflates context length,
token/compute cost, and answer latency. We ask: Can current models leverage
their metacognition to provide other combinations on this Pareto frontier,
e.g., better accuracy with lower context length and/or latency? Abstractly, we
view the model as an improvement operator on its own "thoughts" with a
continuum of possible strategies. We identify an interesting inference family
Parallel-Distill-Refine (PDR), which performs the following: (i) generate
diverse drafts in parallel; (ii) distill them into a bounded, textual
workspace; and (iii) refine conditioned on this workspace, producing an output
that seeds the next round. Importantly, context length (hence compute cost) is
controllable via degree of parallelism, and is no longer conflated with the
total number of generated tokens. We report PDR instantiations of current
models that give better accuracy than long CoT while incurring lower latency.
Setting degree of parallelism to 1 yields an interesting subcase, Sequential
Refinement (SR) (iteratively improve a single candidate answer) which provides
performance superior to long CoT. Success of such model orchestrations raises
the question whether further training could shift the Pareto frontier. To this
end, we train an 8B thinking model with Reinforcement Learning (RL) to make it
consistent with PDR as the inference method. On math tasks with verifiable
answers, iterative pipelines surpass single-pass baselines at matched
sequential budgets, with PDR delivering the largest gains (e.g., +11% on AIME
2024 and +9% on AIME 2025).