Professores Poliglotas: Avaliando Modelos de Linguagem para Geração Sintética de Dados Multilíngues

Resumo

A síntese de dados de ajuste fino supervisionado (SFT) a partir de modelos de linguagem (LMs) para ensinar tarefas multilingues a modelos menores tornou-se cada vez mais comum. No entanto, a seleção do modelo professor é frequentemente ad hoc, geralmente recorrendo à maior opção disponível, mesmo que esses modelos possuam lacunas significativas de capacidade em idiomas não ingleses. Essa prática pode resultar em dados sintéticos de baixa qualidade e desempenho subótimo do modelo estudante. Neste trabalho, caracterizamos sistematicamente o que constitui um professor multilingue eficaz. Medimos medidas intrínsecas da qualidade dos dados com o desempenho extrínseco do modelo estudante numa métrica que denominamos Pontuação Poliglota; avaliamos 10 LMs em 6 idiomas tipologicamente diversos, geramos mais de 1,4 milhão de exemplos de SFT e treinamos 240 modelos estudantes. Entre os modelos testados, o Gemma 3 27B e o Aya Expanse 32B emergem como professores consistentemente eficazes em diferentes famílias de modelos base estudantes. Análises mais aprofundadas revelam que a escala do modelo por si só não prevê significativamente a eficácia do professor; em vez disso, qualidades dos dados, como diversidade de *prompts*, extensão e fluência da resposta, capturam mais de 93,3% da variância na qualidade intrínseca dos dados e preveem o desempenho do estudante. Por fim, fornecemos recomendações práticas, incluindo combinar as famílias de modelos dos pares professor-estudante e traduzir a partir de *prompts* existentes ou responder a eles, o que pode gerar melhorias para idiomas com menos recursos. Esperamos que o nosso trabalho avance a pesquisa centrada em dados no desenvolvimento de dados sintéticos multilingues e de modelos de linguagem.

English

Synthesizing supervised finetuning (SFT) data from language models (LMs) to teach smaller models multilingual tasks has become increasingly common. However, teacher model selection is often ad hoc, typically defaulting to the largest available option, even though such models may have significant capability gaps in non-English languages. This practice can result in poor-quality synthetic data and suboptimal student downstream performance. In this work, we systematically characterize what makes an effective multilingual teacher. We measure intrinsic measures of data quality with extrinsic student model performance in a metric we call Polyglot Score; evaluating 10 LMs across 6 typologically diverse languages, generating over 1.4M SFT examples and training 240 student models. Among the models tested, Gemma 3 27B and Aya Expanse 32B emerge as consistently effective teachers across different student base model families. Further analyses reveal that model scale alone does not significantly predict teacher effectiveness; instead, data qualities such as prompt diversity, length, and response fluency capture over 93.3% of variance in intrinsic data quality and predict student performance. Finally, we provide practical recommendations, including matching the model families of teacher-student pairs and translating from or responding to existing prompts, which can yield improvements for less-resourced languages. We hope that our work advances data-centric research in multilingual synthetic data and LM development.

Professores Poliglotas: Avaliando Modelos de Linguagem para Geração Sintética de Dados Multilíngues

Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation

Resumo

Support