ChatPaper.aiChatPaper

다국어 교사: 다국어 합성 데이터 생성을 위한 언어 모델 평가

Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation

April 13, 2026
저자: Lester James V. Miranda, Ivan Vulić, Anna Korhonen
cs.AI

초록

언어 모델(LM)에서 지도 미세조정(SFT) 데이터를 합성하여 더 작은 모델에 다국어 작업을 가르치는 방법이 점점 보편화되고 있습니다. 그러나 교사 모델 선택은 종종 임시적으로 이루어지며, 일반적으로 가장 큰 모델을 기본으로 선택하는데, 이러한 모델들은 비영어권 언어에서 상당한 능력 격차를 보일 수 있습니다. 이러한 관행은 저품질의 합성 데이터와 열악한 학생 모델의 다운스트림 성능으로 이어질 수 있습니다. 본 연구에서는 효과적인 다국어 교사 모델의 특성을 체계적으로 분석합니다. 우리는 데이터 품질의 내재적 측정치와 학생 모델 성능의 외재적 측정치를 'Polyglot Score'라는 지표로 통합하여 평가하며, 6개의 유형론적으로 다양한 언어에 걸쳐 10개의 LM을 측정하고 140만 개 이상의 SFT 예시를 생성하며 240개의 학생 모델을 학습합니다. 평가된 모델 중 Gemma 3 27B와 Aya Expanse 32B는 서로 다른 학생 기반 모델 패밀리에서 일관되게 효과적인 교사 모델로 부각됩니다. 추가 분석에 따르면, 모델 규모만으로는 교사 효과성을 유의미하게 예측하지 못하며, 프롬프트 다양성, 길이, 응답 유창성과 같은 데이터 품질 특성이 내재적 데이터 품질 변동의 93.3% 이상을 설명하고 학생 성능을 예측합니다. 마지막으로, 우리는 교사-학생 모델 패밀리를 일치시키거나 기존 프롬프트를 번역하거나 이를 기반으로 응답 생성하기와 같은 실용적인 권장사항을 제시하며, 이는 자원이 부족한 언어의 성능 향상을 가져올 수 있습니다. 우리의 연구가 다국어 합성 데이터 및 LM 개발 분야의 데이터 중심 연구 발전에 기여하기를 바랍니다.
English
Synthesizing supervised finetuning (SFT) data from language models (LMs) to teach smaller models multilingual tasks has become increasingly common. However, teacher model selection is often ad hoc, typically defaulting to the largest available option, even though such models may have significant capability gaps in non-English languages. This practice can result in poor-quality synthetic data and suboptimal student downstream performance. In this work, we systematically characterize what makes an effective multilingual teacher. We measure intrinsic measures of data quality with extrinsic student model performance in a metric we call Polyglot Score; evaluating 10 LMs across 6 typologically diverse languages, generating over 1.4M SFT examples and training 240 student models. Among the models tested, Gemma 3 27B and Aya Expanse 32B emerge as consistently effective teachers across different student base model families. Further analyses reveal that model scale alone does not significantly predict teacher effectiveness; instead, data qualities such as prompt diversity, length, and response fluency capture over 93.3% of variance in intrinsic data quality and predict student performance. Finally, we provide practical recommendations, including matching the model families of teacher-student pairs and translating from or responding to existing prompts, which can yield improvements for less-resourced languages. We hope that our work advances data-centric research in multilingual synthetic data and LM development.
PDF11April 15, 2026