Repenser les jetons de pensée : les LLM en tant qu'opérateurs d'amélioration

papers.abstract

L'entraînement au raisonnement incite les LLM à produire de longues chaînes de pensée (long CoT), ce qui leur permet, entre autres, d'explorer des stratégies de résolution avec auto-vérification. Cela entraîne une plus grande précision, mais augmente la longueur du contexte, le coût en tokens/calcul et la latence des réponses. Nous posons la question suivante : Les modèles actuels peuvent-ils exploiter leur métacognition pour offrir d'autres combinaisons sur cette frontière de Pareto, par exemple une meilleure précision avec une longueur de contexte et/ou une latence réduites ? De manière abstraite, nous considérons le modèle comme un opérateur d'amélioration de ses propres "pensées" avec un continuum de stratégies possibles. Nous identifions une famille d'inférence intéressante, Parallel-Distill-Refine (PDR), qui effectue les étapes suivantes : (i) générer des ébauches diversifiées en parallèle ; (ii) les distiller dans un espace de travail textuel limité ; et (iii) affiner en fonction de cet espace de travail, produisant une sortie qui alimente le tour suivant. Fait important, la longueur du contexte (et donc le coût de calcul) est contrôlable via le degré de parallélisme et n'est plus confondue avec le nombre total de tokens générés. Nous rapportons des instanciations de PDR pour les modèles actuels qui offrent une meilleure précision que le long CoT tout en induisant une latence plus faible. Régler le degré de parallélisme à 1 donne un sous-cas intéressant, le Raffinement Séquentiel (SR) (amélioration itérative d'une seule réponse candidate), qui fournit une performance supérieure au long CoT. Le succès de telles orchestrations de modèles soulève la question de savoir si un entraînement supplémentaire pourrait déplacer la frontière de Pareto. À cette fin, nous entraînons un modèle de pensée de 8B avec l'apprentissage par renforcement (RL) pour le rendre cohérent avec PDR comme méthode d'inférence. Sur des tâches mathématiques avec des réponses vérifiables, les pipelines itératifs surpassent les bases de référence en une seule passe avec des budgets séquentiels équivalents, PDR offrant les gains les plus importants (par exemple, +11 % sur AIME 2024 et +9 % sur AIME 2025).

English

Reasoning training incentivizes LLMs to produce long chains of thought (long CoT), which among other things, allows them to explore solution strategies with self-checking. This results in higher accuracy, but inflates context length, token/compute cost, and answer latency. We ask: Can current models leverage their metacognition to provide other combinations on this Pareto frontier, e.g., better accuracy with lower context length and/or latency? Abstractly, we view the model as an improvement operator on its own "thoughts" with a continuum of possible strategies. We identify an interesting inference family Parallel-Distill-Refine (PDR), which performs the following: (i) generate diverse drafts in parallel; (ii) distill them into a bounded, textual workspace; and (iii) refine conditioned on this workspace, producing an output that seeds the next round. Importantly, context length (hence compute cost) is controllable via degree of parallelism, and is no longer conflated with the total number of generated tokens. We report PDR instantiations of current models that give better accuracy than long CoT while incurring lower latency. Setting degree of parallelism to 1 yields an interesting subcase, Sequential Refinement (SR) (iteratively improve a single candidate answer) which provides performance superior to long CoT. Success of such model orchestrations raises the question whether further training could shift the Pareto frontier. To this end, we train an 8B thinking model with Reinforcement Learning (RL) to make it consistent with PDR as the inference method. On math tasks with verifiable answers, iterative pipelines surpass single-pass baselines at matched sequential budgets, with PDR delivering the largest gains (e.g., +11% on AIME 2024 and +9% on AIME 2025).

Repenser les jetons de pensée : les LLM en tant qu'opérateurs d'amélioration

Rethinking Thinking Tokens: LLMs as Improvement Operators

papers.abstract

Support