Переосмысление "мыслящих токенов": языковые модели как операторы улучшения
Rethinking Thinking Tokens: LLMs as Improvement Operators
October 1, 2025
Авторы: Lovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev Arora, Anirudh Goyal
cs.AI
Аннотация
Обучение рассуждениям стимулирует большие языковые модели (LLM) генерировать длинные цепочки мыслей (long CoT), что, среди прочего, позволяет им исследовать стратегии решения задач с самопроверкой. Это приводит к повышению точности, но увеличивает длину контекста, затраты на токены/вычисления и задержку ответа. Мы задаемся вопросом: могут ли современные модели использовать свои метакогнитивные способности для предоставления других комбинаций на этой границе Парето, например, лучшей точности при меньшей длине контекста и/или задержке? Абстрактно мы рассматриваем модель как оператор улучшения своих собственных "мыслей" с континуумом возможных стратегий. Мы выделяем интересное семейство методов вывода Parallel-Distill-Refine (PDR), которое выполняет следующее: (i) генерирует разнообразные черновики параллельно; (ii) дистиллирует их в ограниченное текстовое рабочее пространство; и (iii) уточняет, основываясь на этом рабочем пространстве, создавая выходные данные, которые становятся основой для следующего раунда. Важно, что длина контекста (и, следовательно, затраты на вычисления) контролируется через степень параллелизма и больше не связана с общим количеством сгенерированных токенов. Мы сообщаем о реализациях PDR для современных моделей, которые обеспечивают лучшую точность, чем long CoT, при меньшей задержке. Установка степени параллелизма на 1 дает интересный частный случай, Sequential Refinement (SR) (итеративное улучшение одного кандидата на ответ), который превосходит long CoT по производительности. Успех таких оркестраций моделей поднимает вопрос о том, может ли дальнейшее обучение сместить границу Парето. В связи с этим мы обучаем 8B-модель рассуждений с использованием обучения с подкреплением (RL), чтобы сделать ее согласованной с PDR как методом вывода. На математических задачах с проверяемыми ответами итеративные подходы превосходят однопроходные базовые методы при сопоставимых последовательных затратах, причем PDR демонстрирует наибольший прирост (например, +11% на AIME 2024 и +9% на AIME 2025).
English
Reasoning training incentivizes LLMs to produce long chains of thought (long
CoT), which among other things, allows them to explore solution strategies with
self-checking. This results in higher accuracy, but inflates context length,
token/compute cost, and answer latency. We ask: Can current models leverage
their metacognition to provide other combinations on this Pareto frontier,
e.g., better accuracy with lower context length and/or latency? Abstractly, we
view the model as an improvement operator on its own "thoughts" with a
continuum of possible strategies. We identify an interesting inference family
Parallel-Distill-Refine (PDR), which performs the following: (i) generate
diverse drafts in parallel; (ii) distill them into a bounded, textual
workspace; and (iii) refine conditioned on this workspace, producing an output
that seeds the next round. Importantly, context length (hence compute cost) is
controllable via degree of parallelism, and is no longer conflated with the
total number of generated tokens. We report PDR instantiations of current
models that give better accuracy than long CoT while incurring lower latency.
Setting degree of parallelism to 1 yields an interesting subcase, Sequential
Refinement (SR) (iteratively improve a single candidate answer) which provides
performance superior to long CoT. Success of such model orchestrations raises
the question whether further training could shift the Pareto frontier. To this
end, we train an 8B thinking model with Reinforcement Learning (RL) to make it
consistent with PDR as the inference method. On math tasks with verifiable
answers, iterative pipelines surpass single-pass baselines at matched
sequential budgets, with PDR delivering the largest gains (e.g., +11% on AIME
2024 and +9% on AIME 2025).