Ein Stich zur rechten Zeit erspart neun: Proaktive Selbstverbesserung für Sprachmodelle
A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models
August 18, 2025
papers.authors: Jinyi Han, Xinyi Wang, Haiquan Zhao, Tingyun li, Zishang Jiang, Sihang Jiang, Jiaqing Liang, Xin Lin, Weikang Zhou, Zeye Sun, Fei Yu, Yanghua Xiao
cs.AI
papers.abstract
Jüngste Fortschritte im Bereich der Selbstverfeinerung haben ein erhebliches Potenzial gezeigt, um die Ausgaben großer Sprachmodelle (LLMs) durch iterative Verfeinerung zu verbessern. Die meisten bestehenden Methoden zur Selbstverfeinerung basieren jedoch auf einem reaktiven Prozess mit einer festen Anzahl von Iterationen, was es schwierig macht, den optimalen Zeitpunkt und Inhalt der Verfeinerung basierend auf dem sich entwickelnden Generierungskontext zu bestimmen. Inspiriert von der Art und Weise, wie Menschen ihre Gedanken während der Ausführung dynamisch verfeinern, schlagen wir ProActive Self-Refinement (PASR) vor, eine neuartige Methode, die es LLMs ermöglicht, ihre Ausgaben während des Generierungsprozesses zu verfeinern. Im Gegensatz zu Methoden, die gesamte Antworten neu generieren, entscheidet PASR proaktiv, ob, wann und wie verfeinert werden soll, basierend auf dem internen Zustand des Modells und dem sich entwickelnden Kontext. Wir führen umfangreiche Experimente mit einer vielfältigen Auswahl von 10 Aufgaben durch, um die Wirksamkeit von PASR zu bewerten. Die experimentellen Ergebnisse zeigen, dass PASR die Problemlösungsleistung erheblich verbessert. Insbesondere bei Qwen3-8B reduziert PASR den durchschnittlichen Token-Verbrauch um 41,6 Prozent im Vergleich zur Standardgenerierung, während gleichzeitig eine Verbesserung der Genauigkeit um 8,2 Prozent erreicht wird. Unser Code und alle in der Arbeit verwendeten Baselines sind auf GitHub verfügbar.
English
Recent advances in self-refinement have demonstrated significant potential
for improving the outputs of large language models (LLMs) through iterative
refinement. However, most existing self-refinement methods rely on a reactive
process with a fixed number of iterations, making it difficult to determine the
optimal timing and content of refinement based on the evolving generation
context. Inspired by the way humans dynamically refine their thoughts during
execution, we propose ProActive Self-Refinement (PASR), a novel method that
enables LLMs to refine their outputs during the generation process. Unlike
methods that regenerate entire responses, PASR proactively decides whether,
when, and how to refine based on the model's internal state and evolving
context. We conduct extensive experiments on a diverse set of 10 tasks to
evaluate the effectiveness of PASR. Experimental results show that PASR
significantly enhances problem-solving performance. In particular, on Qwen3-8B,
PASR reduces average token consumption by 41.6 percent compared to standard
generation, while also achieving an 8.2 percent improvement in accuracy. Our
code and all baselines used in the paper are available in the GitHub.