Insegnanti Poliglotti: Valutazione dei Modelli Linguistici per la Generazione di Dati Sintetici Multilingue

Abstract

La sintesi di dati per il fine-tuning supervisionato (SFT) da modelli linguistici (LM) per insegnare compiti multilingue a modelli più piccoli è diventata una pratica sempre più comune. Tuttavia, la selezione del modello insegnante è spesso ad hoc, ricadendo tipicamente sull'opzione più grande disponibile, nonostante tali modelli possano presentare lacune significative nelle capacità per le lingue non inglesi. Questa pratica può portare a dati sintetici di scarsa qualità e a prestazioni subottimali dello studente downstream. In questo lavoro, caratterizziamo sistematicamente cosa costituisce un insegnante multilingue efficace. Misuriamo metriche intrinseche della qualità dei dati con le prestazioni estrinseche del modello studente in una metrica che chiamiamo Polyglot Score; valutiamo 10 LM in 6 lingue tipologicamente diverse, generando oltre 1,4 milioni di esempi SFT e addestrando 240 modelli studente. Tra i modelli testati, Gemma 3 27B e Aya Expanse 32B emergono come insegnanti costantemente efficaci su diverse famiglie di modelli studente di base. Ulteriori analisi rivelano che la sola scala del modello non predice in modo significativo l'efficacia dell'insegnante; invece, qualità dei dati come la diversità dei prompt, la lunghezza e la fluidità della risposta catturano oltre il 93,3% della varianza nella qualità intrinseca dei dati e predicono le prestazioni dello studente. Infine, forniamo raccomandazioni pratiche, tra cui l'abbinamento delle famiglie di modelli per le coppie insegnante-studente e il tradurre da o rispondere a prompt esistenti, che possono portare a miglioramenti per le lingue con meno risorse. Speriamo che il nostro lavoro avanzi la ricerca data-centrica nello sviluppo di dati sintetici multilingue e di LM.

English

Synthesizing supervised finetuning (SFT) data from language models (LMs) to teach smaller models multilingual tasks has become increasingly common. However, teacher model selection is often ad hoc, typically defaulting to the largest available option, even though such models may have significant capability gaps in non-English languages. This practice can result in poor-quality synthetic data and suboptimal student downstream performance. In this work, we systematically characterize what makes an effective multilingual teacher. We measure intrinsic measures of data quality with extrinsic student model performance in a metric we call Polyglot Score; evaluating 10 LMs across 6 typologically diverse languages, generating over 1.4M SFT examples and training 240 student models. Among the models tested, Gemma 3 27B and Aya Expanse 32B emerge as consistently effective teachers across different student base model families. Further analyses reveal that model scale alone does not significantly predict teacher effectiveness; instead, data qualities such as prompt diversity, length, and response fluency capture over 93.3% of variance in intrinsic data quality and predict student performance. Finally, we provide practical recommendations, including matching the model families of teacher-student pairs and translating from or responding to existing prompts, which can yield improvements for less-resourced languages. We hope that our work advances data-centric research in multilingual synthetic data and LM development.

Insegnanti Poliglotti: Valutazione dei Modelli Linguistici per la Generazione di Dati Sintetici Multilingue

Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation

Abstract

Support