Полиглоты-учителя: оценка языковых моделей для генерации синтетических данных на нескольких языках

Аннотация

Синтез данных для контролируемой дообучения (SFT) с помощью языковых моделей (ЯМ) для обучения многоязычным задачам моделей меньшего размера становится все более распространенной практикой. Однако выбор модели-учителя часто осуществляется произвольно, как правило, по умолчанию выбирается самая крупная доступная модель, даже если такие модели могут иметь значительные пробелы в возможностях для неанглийских языков. Такой подход может приводить к созданию синтетических данных низкого качества и неоптимальной итоговой производительности модели-ученика. В данной работе мы систематически исследуем, что делает многоязычную модель эффективным учителем. Мы связываем внутренние показатели качества данных с итоговой производительностью модели-ученика в метрике, которую называем Polyglot Score; оцениваем 10 ЯМ на 6 типологически разнообразных языках, генерируем более 1,4 млн примеров SFT и обучаем 240 моделей-учеников. Среди протестированных моделей Gemma 3 27B и Aya Expanse 32B демонстрируют стабильно высокую эффективность в роли учителей для различных семейств базовых моделей-учеников. Дальнейший анализ показывает, что только масштаб модели не является значимым предиктором эффективности учителя; вместо этого такие характеристики данных, как разнообразие промптов, их длина и беглость ответов, объясняют более 93,3% дисперсии во внутреннем качестве данных и предсказывают производительность ученика. В заключение мы предлагаем практические рекомендации, включая согласование семейств моделей для пар учитель-ученик, а также перевод существующих промптов или генерацию ответов на них, что может привести к улучшениям для языков с ограниченными ресурсами. Мы надеемся, что наша работа будет способствовать развитию ориентированных на данные исследований в области многоязычных синтетических данных и разработки языковых моделей.

English

Synthesizing supervised finetuning (SFT) data from language models (LMs) to teach smaller models multilingual tasks has become increasingly common. However, teacher model selection is often ad hoc, typically defaulting to the largest available option, even though such models may have significant capability gaps in non-English languages. This practice can result in poor-quality synthetic data and suboptimal student downstream performance. In this work, we systematically characterize what makes an effective multilingual teacher. We measure intrinsic measures of data quality with extrinsic student model performance in a metric we call Polyglot Score; evaluating 10 LMs across 6 typologically diverse languages, generating over 1.4M SFT examples and training 240 student models. Among the models tested, Gemma 3 27B and Aya Expanse 32B emerge as consistently effective teachers across different student base model families. Further analyses reveal that model scale alone does not significantly predict teacher effectiveness; instead, data qualities such as prompt diversity, length, and response fluency capture over 93.3% of variance in intrinsic data quality and predict student performance. Finally, we provide practical recommendations, including matching the model families of teacher-student pairs and translating from or responding to existing prompts, which can yield improvements for less-resourced languages. We hope that our work advances data-centric research in multilingual synthetic data and LM development.

Полиглоты-учителя: оценка языковых моделей для генерации синтетических данных на нескольких языках

Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation

Аннотация

Support