ATLAS: 다국어 사전 학습, 미세 조정 및 다국어성의 저주를 해결하기 위한 적응형 전이 스케일링 법칙
ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality
October 24, 2025
저자: Shayne Longpre, Sneha Kudugunta, Niklas Muennighoff, I-Hung Hsu, Isaac Caswell, Alex Pentland, Sercan Arik, Chen-Yu Lee, Sayna Ebrahimi
cs.AI
초록
스케일링 법칙 연구는 압도적으로 영어에 집중되어 왔지만, 가장 주목받는 AI 모델들은 명시적으로 수십억 명의 전 세계 사용자를 대상으로 합니다. 본 연구에서는 774개에 달하는 다국어 학습 실험, 1천만~80억 개의 모델 매개변수, 400개 이상의 학습 언어, 48개의 평가 언어를 아우르는 역대 최대 규모의 다국어 스케일링 법칙 연구를 수행합니다. 우리는 단일 언어 및 다국어 사전 학습 모두에 적용 가능한 Adaptive Transfer Scaling Law(ATLAS)를 제안하며, 이는 기존 스케일링 법칙의 표본 외 일반화 성능을 R² 기준으로 종종 0.3 이상 능가합니다. 실험 분석을 통해 다국어 학습 동역학, 언어 간 전이 특성, 그리고 다국어성의 저주에 대한 통찰을 제시합니다. 첫째, 38x38=1444개 언어 쌍 간의 상호 이득 점수를 실증적으로 측정한 교차 언어 전이 행렬을 도출합니다. 둘째, 성능 저하 없이 언어를 추가할 때 모델 크기와 데이터를 최적으로 확장하는 방법을 보여주는 언어 중립적 스케일링 법칙을 유도합니다. 셋째, 다국어 체크포인트에서의 전이 학습 대신 처음부터 사전 학습을 수행해야 하는 계산적 전환점을 규명합니다. 이러한 연구 결과가 언어 간 스케일링 법칙의 민주화를 위한 과학적 기반을 마련하고, 실무자가 영어 중심 AI를 넘어 모델을 효율적으로 확장하는 데 기여하기를 바랍니다.
English
Scaling laws research has focused overwhelmingly on English -- yet the most
prominent AI models explicitly serve billions of international users. In this
work, we undertake the largest multilingual scaling laws study to date,
totaling 774 multilingual training experiments, spanning 10M-8B model
parameters, 400+ training languages and 48 evaluation languages. We introduce
the Adaptive Transfer Scaling Law (ATLAS) for both monolingual and multilingual
pretraining, which outperforms existing scaling laws' out-of-sample
generalization often by more than 0.3 R^2. Our analyses of the experiments shed
light on multilingual learning dynamics, transfer properties between languages,
and the curse of multilinguality. First, we derive a cross-lingual transfer
matrix, empirically measuring mutual benefit scores between 38 x 38=1444
language pairs. Second, we derive a language-agnostic scaling law that reveals
how to optimally scale model size and data when adding languages without
sacrificing performance. Third, we identify the computational crossover points
for when to pretrain from scratch versus finetune from multilingual
checkpoints. We hope these findings provide the scientific foundation for
democratizing scaling laws across languages, and enable practitioners to
efficiently scale models -- beyond English-first AI.