CLASS-IT: Konversations- und vortragsorientiertes Feinabstimmen kleiner Sprachmodelle für BabyLMs
CLASS-IT: Conversational and Lecture-Aligned Small-Scale Instruction Tuning for BabyLMs
October 29, 2025
papers.authors: Luca Capone, Alessandro Bondielli, Alessandro Lenci
cs.AI
papers.abstract
Diese Arbeit untersucht, ob kleine Sprachmodelle von Instruction Tuning profitieren können. Wir vergleichen Konversations- und Frage-Antwort-Instruction-Tuning-Datensätze, die entweder in einem gemischten oder sequenziellen Curriculum angewendet werden, unter Verwendung von Decoder-only-Modellen mit 100 und 140 Millionen Parametern. Die Evaluation umfasst sowohl Fine-tuning- (SuperGLUE) als auch Zero-Shot-Szenarien (BLiMP, EWoK, WUGs, Entitätsverfolgung und psycholinguistische Korrelation). Die Ergebnisse zeigen, dass Instruction Tuning in Fine-tuning-Szenarien kleine, aber konsistente Verbesserungen erzielt, wobei sequenzielle Curricula die Leistung von gemischten Datensätzen übertreffen. Die Verbesserungen übertragen sich jedoch nicht konsistent auf Zero-Shot-Aufgaben, was auf einen Zielkonflikt zwischen interaktionsfokussierter Anpassung und breiter linguistischer Generalisierung hindeutet. Diese Ergebnisse verdeutlichen sowohl das Potenzial als auch die Grenzen der Übertragung menschlich inspirierter Lernstrategien auf ressourcenbeschränkte Sprachmodelle und weisen auf hybride, curriculumbasierte Ansätze zur Verbesserung der Generalisierung unter ökologischen Trainingsbeschränkungen hin.
English
This work investigates whether small-scale LMs can benefit from instruction
tuning. We compare conversational and question-answering instruction tuning
datasets, applied either in a merged or sequential curriculum, using
decoder-only models with 100M and 140M parameters. Evaluation spans both
fine-tuning (SuperGLUE) and zero-shot (BLiMP, EWoK, WUGs, entity tracking, and
psycholinguistic correlation) settings. Results show that instruction tuning
yields small but consistent gains in fine-tuning scenarios, with sequential
curricula outperforming merged data; however, improvements do not consistently
transfer to zero-shot tasks, suggesting a trade-off between interaction-focused
adaptation and broad linguistic generalization. These results highlight both
the potential and the constraints of adapting human-inspired learning
strategies to low-resource LMs, and point toward hybrid, curriculum-based
approaches for enhancing generalization under ecological training limits.