ChatPaper.aiChatPaper

ATLAS: Leyes de Escalado Adaptativo de Transferencia para el Pretrenado Multilingüe, el Ajuste Fino y la Decodificación de la Maldición de la Multilingüidad

ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality

October 24, 2025
Autores: Shayne Longpre, Sneha Kudugunta, Niklas Muennighoff, I-Hung Hsu, Isaac Caswell, Alex Pentland, Sercan Arik, Chen-Yu Lee, Sayna Ebrahimi
cs.AI

Resumen

La investigación sobre leyes de escalamiento se ha centrado abrumadoramente en el inglés, a pesar de que los modelos de IA más prominentes sirven explícitamente a miles de millones de usuarios internacionales. En este trabajo, realizamos el estudio de leyes de escalamiento multilingüe más grande hasta la fecha, con un total de 774 experimentos de entrenamiento multilingüe, que abarcan entre 10 millones y 8 mil millones de parámetros de modelo, más de 400 idiomas de entrenamiento y 48 idiomas de evaluación. Introducimos la Ley de Escalamiento de Transferencia Adaptativa (ATLAS) para el preentrenamiento tanto monolingüe como multilingüe, la cual supera la generalización fuera de muestra de las leyes de escalamiento existentes, a menudo en más de 0.3 R². Nuestros análisis de los experimentos arrojan luz sobre la dinámica del aprendizaje multilingüe, las propiedades de transferencia entre idiomas y la maldición de la multilingüidad. Primero, derivamos una matriz de transferencia cross-lingüística, midiendo empíricamente las puntuaciones de beneficio mutuo entre 38 x 38 = 1444 pares de idiomas. Segundo, derivamos una ley de escalamiento independiente del idioma que revela cómo escalar de manera óptima el tamaño del modelo y los datos al agregar idiomas sin sacrificar el rendimiento. Tercero, identificamos los puntos de cruce computacionales para determinar cuándo es preferible un preentrenamiento desde cero frente a un ajuste fino partiendo de puntos de control multilingües. Esperamos que estos hallazgos proporcionen la base científica para democratizar las leyes de escalamiento en todos los idiomas y permitan a los profesionales escalar modelos de manera eficiente, más allá de una IA centrada primordialmente en el inglés.
English
Scaling laws research has focused overwhelmingly on English -- yet the most prominent AI models explicitly serve billions of international users. In this work, we undertake the largest multilingual scaling laws study to date, totaling 774 multilingual training experiments, spanning 10M-8B model parameters, 400+ training languages and 48 evaluation languages. We introduce the Adaptive Transfer Scaling Law (ATLAS) for both monolingual and multilingual pretraining, which outperforms existing scaling laws' out-of-sample generalization often by more than 0.3 R^2. Our analyses of the experiments shed light on multilingual learning dynamics, transfer properties between languages, and the curse of multilinguality. First, we derive a cross-lingual transfer matrix, empirically measuring mutual benefit scores between 38 x 38=1444 language pairs. Second, we derive a language-agnostic scaling law that reveals how to optimally scale model size and data when adding languages without sacrificing performance. Third, we identify the computational crossover points for when to pretrain from scratch versus finetune from multilingual checkpoints. We hope these findings provide the scientific foundation for democratizing scaling laws across languages, and enable practitioners to efficiently scale models -- beyond English-first AI.
PDF181December 1, 2025