Une piqûre à temps en évite neuf : Auto-affinement proactif pour les modèles de langage

papers.abstract

Les récents progrès en matière d'auto-affinage ont démontré un potentiel significatif pour améliorer les sorties des grands modèles de langage (LLMs) grâce à un affinage itératif. Cependant, la plupart des méthodes d'auto-affinage existantes reposent sur un processus réactif avec un nombre fixe d'itérations, ce qui rend difficile la détermination du moment optimal et du contenu de l'affinage en fonction du contexte d'évolution de la génération. Inspirés par la manière dont les humains affinent dynamiquement leurs pensées pendant l'exécution, nous proposons l'Auto-Affinage Proactif (PASR), une méthode novatrice qui permet aux LLMs d'affiner leurs sorties pendant le processus de génération. Contrairement aux méthodes qui régénèrent entièrement les réponses, PASR décide de manière proactive s'il faut, quand et comment affiner en fonction de l'état interne du modèle et du contexte en évolution. Nous menons des expériences approfondies sur un ensemble diversifié de 10 tâches pour évaluer l'efficacité de PASR. Les résultats expérimentaux montrent que PASR améliore significativement les performances en résolution de problèmes. En particulier, sur Qwen3-8B, PASR réduit la consommation moyenne de tokens de 41,6 % par rapport à la génération standard, tout en améliorant la précision de 8,2 %. Notre code et toutes les bases de référence utilisées dans l'article sont disponibles sur GitHub.

English

Recent advances in self-refinement have demonstrated significant potential for improving the outputs of large language models (LLMs) through iterative refinement. However, most existing self-refinement methods rely on a reactive process with a fixed number of iterations, making it difficult to determine the optimal timing and content of refinement based on the evolving generation context. Inspired by the way humans dynamically refine their thoughts during execution, we propose ProActive Self-Refinement (PASR), a novel method that enables LLMs to refine their outputs during the generation process. Unlike methods that regenerate entire responses, PASR proactively decides whether, when, and how to refine based on the model's internal state and evolving context. We conduct extensive experiments on a diverse set of 10 tasks to evaluate the effectiveness of PASR. Experimental results show that PASR significantly enhances problem-solving performance. In particular, on Qwen3-8B, PASR reduces average token consumption by 41.6 percent compared to standard generation, while also achieving an 8.2 percent improvement in accuracy. Our code and all baselines used in the paper are available in the GitHub.

Une piqûre à temps en évite neuf : Auto-affinement proactif pour les modèles de langage

A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models

papers.abstract

Support