Meertalige Onderwijzers: Evaluatie van Taalmodellen voor Meertalige Generatie van Synthetische Gegevens

Samenvatting

Het synthetiseren van supervised finetuning (SFT)-data uit taalmodel(len) (TM/LM) om kleinere modellen meertalige taken aan te leren, is steeds gebruikelijker geworden. De selectie van het leraarmodel verloopt echter vaak ad hoc, waarbij meestal wordt uitgegaan van de grootste beschikbare optie, ook al kunnen dergelijke modellen aanzienlijke capaciteitshiaten vertonen in niet-Engelse talen. Deze praktijk kan resulteren in synthetische data van lage kwaliteit en suboptimale downstream-prestaties van het studentmodel. In dit werk karakteriseren we systematisch wat een effectieve meertalige leraar maakt. We meten intrinsieke maten van datakwaliteit samen met extrinsieke prestatie van studentmodellen in een metriek die we Polyglot Score noemen; we evalueren 10 TM's in 6 typologisch diverse talen, genereren meer dan 1,4 miljoen SFT-voorbeelden en trainen 240 studentmodellen. Van de geteste modellen komen Gemma 3 27B en Aya Expanse 32B naar voren als consistent effectieve leraren across verschillende student-basismodelfamilies. Verdere analyses tonen aan dat modelschaal alleen de effectiviteit van de leraar niet significant voorspelt; in plaats daarvan verklaren datakwaliteiten zoals promptdiversiteit, lengte en responsevloeiendheid meer dan 93,3% van de variantie in intrinsieke datakwaliteit en voorspellen ze de studentprestaties. Ten slotte doen we praktische aanbevelingen, zoals het matchen van de modelfamilies van leraar-studentparen en het vertalen van of reageren op bestaande prompts, wat verbeteringen kan opleveren voor talen met minder middelen. We hopen dat ons werk datagestuurd onderzoek in meertalige synthetische data en TM-ontwikkeling vooruit helpt.

English

Synthesizing supervised finetuning (SFT) data from language models (LMs) to teach smaller models multilingual tasks has become increasingly common. However, teacher model selection is often ad hoc, typically defaulting to the largest available option, even though such models may have significant capability gaps in non-English languages. This practice can result in poor-quality synthetic data and suboptimal student downstream performance. In this work, we systematically characterize what makes an effective multilingual teacher. We measure intrinsic measures of data quality with extrinsic student model performance in a metric we call Polyglot Score; evaluating 10 LMs across 6 typologically diverse languages, generating over 1.4M SFT examples and training 240 student models. Among the models tested, Gemma 3 27B and Aya Expanse 32B emerge as consistently effective teachers across different student base model families. Further analyses reveal that model scale alone does not significantly predict teacher effectiveness; instead, data qualities such as prompt diversity, length, and response fluency capture over 93.3% of variance in intrinsic data quality and predict student performance. Finally, we provide practical recommendations, including matching the model families of teacher-student pairs and translating from or responding to existing prompts, which can yield improvements for less-resourced languages. We hope that our work advances data-centric research in multilingual synthetic data and LM development.

Meertalige Onderwijzers: Evaluatie van Taalmodellen voor Meertalige Generatie van Synthetische Gegevens

Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation

Samenvatting

Support