Enseignants polyglottes : Évaluation des modèles de langage pour la génération de données synthétiques multilingues

Résumé

La synthèse de données de réglage fin supervisé (SFT) à partir de modèles de langage (LM) pour enseigner des tâches multilingues à des modèles plus petits est de plus en plus courante. Cependant, la sélection du modèle enseignant est souvent ad hoc, se limitant généralement à l'option la plus grande disponible, même si ces modèles peuvent présenter des lacunes importantes dans les langues non anglaises. Cette pratique peut entraîner une qualité médiocre des données synthétiques et des performances sous-optimales des modèles étudiants en aval. Dans ce travail, nous caractérisons systématiquement ce qui fait un enseignant multilingue efficace. Nous mesurons des indicateurs intrinsèques de qualité des données avec les performances extrinsèques du modèle étudiant dans une métrique que nous appelons le Score Polyglotte ; évaluant 10 LM à travers 6 langues typologiquement diversifiées, générant plus de 1,4 million d'exemples SFT et entraînant 240 modèles étudiants. Parmi les modèles testés, Gemma 3 27B et Aya Expanse 32B émergent comme des enseignants constamment efficaces across différentes familles de modèles étudiants de base. Des analyses plus poussées révèlent que l'échelle du modèle seule ne prédit pas significativement l'efficacité de l'enseignant ; à la place, des qualités des données telles que la diversité des invites, la longueur et la fluidité des réponses capturent plus de 93,3 % de la variance dans la qualité intrinsèque des données et prédisent les performances des étudiants. Enfin, nous fournissons des recommandations pratiques, notamment l'appariement des familles de modèles des paires enseignant-étudiant et la traduction à partir d'invites existantes ou la réponse à celles-ci, ce qui peut apporter des améliorations pour les langues moins dotées en ressources. Nous espérons que notre travail fera progresser la recherche centrée sur les données dans le développement des données synthétiques multilingues et des LM.

English

Synthesizing supervised finetuning (SFT) data from language models (LMs) to teach smaller models multilingual tasks has become increasingly common. However, teacher model selection is often ad hoc, typically defaulting to the largest available option, even though such models may have significant capability gaps in non-English languages. This practice can result in poor-quality synthetic data and suboptimal student downstream performance. In this work, we systematically characterize what makes an effective multilingual teacher. We measure intrinsic measures of data quality with extrinsic student model performance in a metric we call Polyglot Score; evaluating 10 LMs across 6 typologically diverse languages, generating over 1.4M SFT examples and training 240 student models. Among the models tested, Gemma 3 27B and Aya Expanse 32B emerge as consistently effective teachers across different student base model families. Further analyses reveal that model scale alone does not significantly predict teacher effectiveness; instead, data qualities such as prompt diversity, length, and response fluency capture over 93.3% of variance in intrinsic data quality and predict student performance. Finally, we provide practical recommendations, including matching the model families of teacher-student pairs and translating from or responding to existing prompts, which can yield improvements for less-resourced languages. We hope that our work advances data-centric research in multilingual synthetic data and LM development.

Enseignants polyglottes : Évaluation des modèles de langage pour la génération de données synthétiques multilingues

Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation

Résumé

Support