Profesores políglotas: Evaluación de modelos de lenguaje para la generación multilingüe de datos sintéticos

Resumen

La síntesis de datos de ajuste fino supervisado (SFT, por sus siglas en inglés) a partir de modelos de lenguaje (LM) para enseñar tareas multilingües a modelos más pequeños se ha vuelto cada vez más común. Sin embargo, la selección del modelo maestro a menudo es ad hoc, recurriendo típicamente a la opción más grande disponible, a pesar de que dichos modelos pueden tener brechas significativas de capacidad en idiomas distintos al inglés. Esta práctica puede dar lugar a datos sintéticos de baja calidad y a un rendimiento subóptimo del modelo estudiante en tareas posteriores. En este trabajo, caracterizamos sistemáticamente qué constituye un maestro multilingüe efectivo. Medimos métricas intrínsecas de la calidad de los datos con el rendimiento extrínseco del modelo estudiante en una métrica que llamamos *Puntuación Políglota*; evaluamos 10 LM en 6 idiomas tipológicamente diversos, generamos más de 1.4 millones de ejemplos de SFT y entrenamos 240 modelos estudiante. Entre los modelos evaluados, Gemma 3 27B y Aya Expanse 32B surgieron como maestros consistentemente efectivos en diferentes familias de modelos base estudiante. Análisis adicionales revelan que la escala del modelo por sí sola no predice significativamente la efectividad del maestro; en cambio, cualidades de los datos como la diversidad de *prompts*, la longitud y la fluidez de la respuesta capturan más del 93.3% de la varianza en la calidad intrínseca de los datos y predicen el rendimiento del estudiante. Finalmente, proporcionamos recomendaciones prácticas, que incluyen emparejar las familias de modelos de los pares maestro-estudiante y traducir desde o responder a *prompts* existentes, lo que puede generar mejoras para idiomas con menos recursos. Esperamos que nuestro trabajo impulse la investigación centrada en datos en el desarrollo de datos sintéticos multilingües y de modelos de lenguaje.

English

Synthesizing supervised finetuning (SFT) data from language models (LMs) to teach smaller models multilingual tasks has become increasingly common. However, teacher model selection is often ad hoc, typically defaulting to the largest available option, even though such models may have significant capability gaps in non-English languages. This practice can result in poor-quality synthetic data and suboptimal student downstream performance. In this work, we systematically characterize what makes an effective multilingual teacher. We measure intrinsic measures of data quality with extrinsic student model performance in a metric we call Polyglot Score; evaluating 10 LMs across 6 typologically diverse languages, generating over 1.4M SFT examples and training 240 student models. Among the models tested, Gemma 3 27B and Aya Expanse 32B emerge as consistently effective teachers across different student base model families. Further analyses reveal that model scale alone does not significantly predict teacher effectiveness; instead, data qualities such as prompt diversity, length, and response fluency capture over 93.3% of variance in intrinsic data quality and predict student performance. Finally, we provide practical recommendations, including matching the model families of teacher-student pairs and translating from or responding to existing prompts, which can yield improvements for less-resourced languages. We hope that our work advances data-centric research in multilingual synthetic data and LM development.

Profesores políglotas: Evaluación de modelos de lenguaje para la generación multilingüe de datos sintéticos

Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation

Resumen

Support