Une piqûre à temps en évite neuf : Auto-affinement proactif pour les modèles de langage
A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models
August 18, 2025
papers.authors: Jinyi Han, Xinyi Wang, Haiquan Zhao, Tingyun li, Zishang Jiang, Sihang Jiang, Jiaqing Liang, Xin Lin, Weikang Zhou, Zeye Sun, Fei Yu, Yanghua Xiao
cs.AI
papers.abstract
Les récents progrès en matière d'auto-affinage ont démontré un potentiel significatif pour améliorer les sorties des grands modèles de langage (LLMs) grâce à un affinage itératif. Cependant, la plupart des méthodes d'auto-affinage existantes reposent sur un processus réactif avec un nombre fixe d'itérations, ce qui rend difficile la détermination du moment optimal et du contenu de l'affinage en fonction du contexte d'évolution de la génération. Inspirés par la manière dont les humains affinent dynamiquement leurs pensées pendant l'exécution, nous proposons l'Auto-Affinage Proactif (PASR), une méthode novatrice qui permet aux LLMs d'affiner leurs sorties pendant le processus de génération. Contrairement aux méthodes qui régénèrent entièrement les réponses, PASR décide de manière proactive s'il faut, quand et comment affiner en fonction de l'état interne du modèle et du contexte en évolution. Nous menons des expériences approfondies sur un ensemble diversifié de 10 tâches pour évaluer l'efficacité de PASR. Les résultats expérimentaux montrent que PASR améliore significativement les performances en résolution de problèmes. En particulier, sur Qwen3-8B, PASR réduit la consommation moyenne de tokens de 41,6 % par rapport à la génération standard, tout en améliorant la précision de 8,2 %. Notre code et toutes les bases de référence utilisées dans l'article sont disponibles sur GitHub.
English
Recent advances in self-refinement have demonstrated significant potential
for improving the outputs of large language models (LLMs) through iterative
refinement. However, most existing self-refinement methods rely on a reactive
process with a fixed number of iterations, making it difficult to determine the
optimal timing and content of refinement based on the evolving generation
context. Inspired by the way humans dynamically refine their thoughts during
execution, we propose ProActive Self-Refinement (PASR), a novel method that
enables LLMs to refine their outputs during the generation process. Unlike
methods that regenerate entire responses, PASR proactively decides whether,
when, and how to refine based on the model's internal state and evolving
context. We conduct extensive experiments on a diverse set of 10 tasks to
evaluate the effectiveness of PASR. Experimental results show that PASR
significantly enhances problem-solving performance. In particular, on Qwen3-8B,
PASR reduces average token consumption by 41.6 percent compared to standard
generation, while also achieving an 8.2 percent improvement in accuracy. Our
code and all baselines used in the paper are available in the GitHub.