Zelfgeleerde zelfcorrectie voor kleine taalmodellen
Self-Taught Self-Correction for Small Language Models
March 11, 2025
Auteurs: Viktor Moskvoretskii, Chris Biemann, Irina Nikishina
cs.AI
Samenvatting
Hoewel grote taalmmodellen (LLMs) opmerkelijke prestaties hebben behaald bij diverse taken, blijven ze gevoelig voor fouten. Een belangrijke uitdaging is het mogelijk maken van zelfcorrectie. Waar eerder onderzoek vertrouwde op externe tools of grote propriëtaire modellen, verkent dit werk zelfcorrectie in kleine taalmmodellen (SLMs) door middel van iteratieve fine-tuning met uitsluitend zelf gegenereerde data. We introduceren het Self-Taught Self-Correction (STaSC) algoritme, dat meerdere algoritmische ontwerpkeuzes omvat. Experimentele resultaten op een vraag-antwoordtaak tonen aan dat STaSC effectief zelfcorrectie leert, wat leidt tot aanzienlijke prestatieverbeteringen. Onze analyse biedt verder inzicht in de mechanismen van zelfcorrectie en de impact van verschillende ontwerpkeuzes op de leer dynamiek en de algehele prestaties. Om toekomstig onderzoek te ondersteunen, maken we onze gebruiksvriendelijke codebase en lichtgewicht modellen beschikbaar.
English
Although large language models (LLMs) have achieved remarkable performance
across various tasks, they remain prone to errors. A key challenge is enabling
them to self-correct. While prior research has relied on external tools or
large proprietary models, this work explores self-correction in small language
models (SLMs) through iterative fine-tuning using solely self-generated data.
We introduce the Self-Taught Self-Correction (STaSC) algorithm, which
incorporates multiple algorithmic design choices. Experimental results on a
question-answering task demonstrate that STaSC effectively learns
self-correction, leading to significant performance improvements. Our analysis
further provides insights into the mechanisms of self-correction and the impact
of different design choices on learning dynamics and overall performance. To
support future research, we release our user-friendly codebase and lightweight
models.Summary
AI-Generated Summary