Polyglotte Lehrkräfte: Bewertung von Sprachmodellen für die mehrsprachige synthetische Datengenerierung

Zusammenfassung

Die Synthese von überwachten Feintuning-Daten (SFT) aus Sprachmodellen (LMs), um kleineren Modelle multilinguale Aufgaben beizubringen, ist zunehmend verbreitet. Die Auswahl des Lehrermodells erfolgt jedoch oft ad hoc und beschränkt sich typischerweise auf die größte verfügbare Option, obwohl solche Modelle erhebliche Fähigkeitslücken in nicht-englischen Sprachen aufweisen können. Diese Praxis kann zu synthetischen Daten von geringer Qualität und suboptimaler nachgelagerter Leistung des Schülermodells führen. In dieser Arbeit charakterisieren wir systematisch, was einen effektiven multilingualen Lehrer ausmacht. Wir messen intrinsische Maße der Datenqualität zusammen mit der extrinsischen Leistung des Schülermodells in einer Metrik, die wir als Polyglot Score bezeichnen; dabei evaluieren wir 10 LMs über 6 typologisch diverse Sprachen hinweg, generieren über 1,4 Millionen SFT-Beispiele und trainieren 240 Schülermodelle. Unter den getesteten Modellen erweisen sich Gemma 3 27B und Aya Expanse 32B durchgängig als effektive Lehrer über verschiedene Schülermodell-Familien hinweg. Weitere Analysen zeigen, dass die Modellgröße allein die Lehrerwirksamkeit nicht signifikant vorhersagt; stattdessen erklären Datenqualitäten wie Prompt-Vielfalt, Länge und Antwortflüssigkeit über 93,3 % der Varianz in der intrinsischen Datenqualität und sagen die Schülerleistung vorher. Abschließend geben wir praktische Empfehlungen, darunter die Abstimmung der Modellfamilien von Lehrer-Schüler-Paaren sowie das Übersetzen aus oder Antworten auf vorhandene Prompts, was Verbesserungen für weniger ressourcenstarke Sprachen bringen kann. Wir hoffen, dass unsere Arbeit die datenzentrierte Forschung im Bereich multilingualer synthetischer Daten und der LM-Entwicklung voranbringt.

English

Synthesizing supervised finetuning (SFT) data from language models (LMs) to teach smaller models multilingual tasks has become increasingly common. However, teacher model selection is often ad hoc, typically defaulting to the largest available option, even though such models may have significant capability gaps in non-English languages. This practice can result in poor-quality synthetic data and suboptimal student downstream performance. In this work, we systematically characterize what makes an effective multilingual teacher. We measure intrinsic measures of data quality with extrinsic student model performance in a metric we call Polyglot Score; evaluating 10 LMs across 6 typologically diverse languages, generating over 1.4M SFT examples and training 240 student models. Among the models tested, Gemma 3 27B and Aya Expanse 32B emerge as consistently effective teachers across different student base model families. Further analyses reveal that model scale alone does not significantly predict teacher effectiveness; instead, data qualities such as prompt diversity, length, and response fluency capture over 93.3% of variance in intrinsic data quality and predict student performance. Finally, we provide practical recommendations, including matching the model families of teacher-student pairs and translating from or responding to existing prompts, which can yield improvements for less-resourced languages. We hope that our work advances data-centric research in multilingual synthetic data and LM development.

Polyglotte Lehrkräfte: Bewertung von Sprachmodellen für die mehrsprachige synthetische Datengenerierung

Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation

Zusammenfassung

Support