Selbstgeleitete Selbstkorrektur für kleine Sprachmodelle

papers.abstract

Obwohl große Sprachmodelle (LLMs) bemerkenswerte Leistungen bei verschiedenen Aufgaben erzielt haben, sind sie weiterhin anfällig für Fehler. Eine zentrale Herausforderung besteht darin, ihnen die Fähigkeit zur Selbstkorrektur zu ermöglichen. Während frühere Forschung auf externe Tools oder große proprietäre Modelle zurückgegriffen hat, untersucht diese Arbeit die Selbstkorrektur in kleinen Sprachmodellen (SLMs) durch iteratives Feinabstimmen ausschließlich mit selbstgenerierten Daten. Wir stellen den Self-Taught Self-Correction (STaSC)-Algorithmus vor, der mehrere algorithmische Designentscheidungen integriert. Experimentelle Ergebnisse bei einer Frage-Antwort-Aufgabe zeigen, dass STaSC effektiv Selbstkorrektur erlernt und zu signifikanten Leistungsverbesserungen führt. Unsere Analyse liefert weiterhin Einblicke in die Mechanismen der Selbstkorrektur und die Auswirkungen verschiedener Designentscheidungen auf die Lernprozesse und die Gesamtleistung. Um zukünftige Forschung zu unterstützen, veröffentlichen wir unseren benutzerfreundlichen Code und leichtgewichtige Modelle.

English

Although large language models (LLMs) have achieved remarkable performance across various tasks, they remain prone to errors. A key challenge is enabling them to self-correct. While prior research has relied on external tools or large proprietary models, this work explores self-correction in small language models (SLMs) through iterative fine-tuning using solely self-generated data. We introduce the Self-Taught Self-Correction (STaSC) algorithm, which incorporates multiple algorithmic design choices. Experimental results on a question-answering task demonstrate that STaSC effectively learns self-correction, leading to significant performance improvements. Our analysis further provides insights into the mechanisms of self-correction and the impact of different design choices on learning dynamics and overall performance. To support future research, we release our user-friendly codebase and lightweight models.

Selbstgeleitete Selbstkorrektur für kleine Sprachmodelle

Self-Taught Self-Correction for Small Language Models

papers.abstract

Support