Ein Stich zur rechten Zeit erspart neun: Proaktive Selbstverbesserung für Sprachmodelle

papers.abstract

Jüngste Fortschritte im Bereich der Selbstverfeinerung haben ein erhebliches Potenzial gezeigt, um die Ausgaben großer Sprachmodelle (LLMs) durch iterative Verfeinerung zu verbessern. Die meisten bestehenden Methoden zur Selbstverfeinerung basieren jedoch auf einem reaktiven Prozess mit einer festen Anzahl von Iterationen, was es schwierig macht, den optimalen Zeitpunkt und Inhalt der Verfeinerung basierend auf dem sich entwickelnden Generierungskontext zu bestimmen. Inspiriert von der Art und Weise, wie Menschen ihre Gedanken während der Ausführung dynamisch verfeinern, schlagen wir ProActive Self-Refinement (PASR) vor, eine neuartige Methode, die es LLMs ermöglicht, ihre Ausgaben während des Generierungsprozesses zu verfeinern. Im Gegensatz zu Methoden, die gesamte Antworten neu generieren, entscheidet PASR proaktiv, ob, wann und wie verfeinert werden soll, basierend auf dem internen Zustand des Modells und dem sich entwickelnden Kontext. Wir führen umfangreiche Experimente mit einer vielfältigen Auswahl von 10 Aufgaben durch, um die Wirksamkeit von PASR zu bewerten. Die experimentellen Ergebnisse zeigen, dass PASR die Problemlösungsleistung erheblich verbessert. Insbesondere bei Qwen3-8B reduziert PASR den durchschnittlichen Token-Verbrauch um 41,6 Prozent im Vergleich zur Standardgenerierung, während gleichzeitig eine Verbesserung der Genauigkeit um 8,2 Prozent erreicht wird. Unser Code und alle in der Arbeit verwendeten Baselines sind auf GitHub verfügbar.

English

Recent advances in self-refinement have demonstrated significant potential for improving the outputs of large language models (LLMs) through iterative refinement. However, most existing self-refinement methods rely on a reactive process with a fixed number of iterations, making it difficult to determine the optimal timing and content of refinement based on the evolving generation context. Inspired by the way humans dynamically refine their thoughts during execution, we propose ProActive Self-Refinement (PASR), a novel method that enables LLMs to refine their outputs during the generation process. Unlike methods that regenerate entire responses, PASR proactively decides whether, when, and how to refine based on the model's internal state and evolving context. We conduct extensive experiments on a diverse set of 10 tasks to evaluate the effectiveness of PASR. Experimental results show that PASR significantly enhances problem-solving performance. In particular, on Qwen3-8B, PASR reduces average token consumption by 41.6 percent compared to standard generation, while also achieving an 8.2 percent improvement in accuracy. Our code and all baselines used in the paper are available in the GitHub.

Ein Stich zur rechten Zeit erspart neun: Proaktive Selbstverbesserung für Sprachmodelle

A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models

papers.abstract

Support