多言語対応教師:多言語合成データ生成における言語モデルの評価
Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation
April 13, 2026
著者: Lester James V. Miranda, Ivan Vulić, Anna Korhonen
cs.AI
要旨
教師言語モデル(LM)から教師ありファインチューニング(SFT)データを合成し、より小規模なモデルに多言語タスクを学習させる手法が一般的になりつつある。しかし、教師モデルの選択は往々にしてアドホックであり、典型的には利用可能な最大規模のモデルがデフォルトで選択される。このようなモデルは非英語言語において重大な能力ギャップを有する可能性があるにもかかわらず、である。この慣行は、品質の低い合成データと、学生モデルの下流タスクにおける準最適な性能を招きうる。本研究では、効果的な多言語教師モデルの特性を体系的に検証する。我々は、Polyglot Scoreと呼ぶ指標において、データ品質の内在的指標と学生モデル性能の外在的指標を測定する。10のLMを6つの類型論的に多様な言語で評価し、140万以上のSFT事例を生成し、240の学生モデルを訓練した。評価されたモデルの中では、Gemma 3 27BとAya Expanse 32Bが、異なる学生ベースモデルファミリーにわたって一貫して効果的な教師として浮上した。さらなる分析により、モデル規模単独では教師の有効性を有意に予測できないことが明らかになった。代わりに、プロンプトの多様性、長さ、応答の流暢性といったデータの質が、内在的データ品質の分散の93.3%以上を説明し、学生の性能を予測する。最後に、教師と学生のモデルファミリーを一致させる、既存のプロンプトから翻訳する、または既存のプロンプトに応答するといった実践的な提言を行う。これらはリソースの少ない言語において改善をもたらしうる。我々の研究が、多言語合成データとLM開発におけるデータ中心の研究を推進することを期待する。
English
Synthesizing supervised finetuning (SFT) data from language models (LMs) to teach smaller models multilingual tasks has become increasingly common. However, teacher model selection is often ad hoc, typically defaulting to the largest available option, even though such models may have significant capability gaps in non-English languages. This practice can result in poor-quality synthetic data and suboptimal student downstream performance. In this work, we systematically characterize what makes an effective multilingual teacher. We measure intrinsic measures of data quality with extrinsic student model performance in a metric we call Polyglot Score; evaluating 10 LMs across 6 typologically diverse languages, generating over 1.4M SFT examples and training 240 student models. Among the models tested, Gemma 3 27B and Aya Expanse 32B emerge as consistently effective teachers across different student base model families. Further analyses reveal that model scale alone does not significantly predict teacher effectiveness; instead, data qualities such as prompt diversity, length, and response fluency capture over 93.3% of variance in intrinsic data quality and predict student performance. Finally, we provide practical recommendations, including matching the model families of teacher-student pairs and translating from or responding to existing prompts, which can yield improvements for less-resourced languages. We hope that our work advances data-centric research in multilingual synthetic data and LM development.