Révéler l'évolutivité des performances en aval des LLM : une perspective basée sur le clustering
Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective
February 24, 2025
Auteurs: Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li
cs.AI
Résumé
Les avancées rapides en informatique augmentent considérablement l'échelle et le coût de l'entraînement des modèles de langage de grande taille (LLMs). Prédire avec précision les performances sur les tâches en aval avant l'entraînement du modèle est crucial pour une allocation efficace des ressources, mais reste difficile en raison de deux contraintes principales : (1) le "phénomène d'émergence", où les métriques de performance en aval ne deviennent significatives qu'après un entraînement approfondi, ce qui limite la capacité à utiliser des modèles plus petits pour la prédiction ; (2) des distributions de difficulté des tâches inégales et l'absence de lois d'échelle cohérentes, entraînant une variabilité métrique substantielle. Les méthodes existantes de prédiction de performance souffrent d'une précision et d'une fiabilité limitées, entravant ainsi l'évaluation des capacités potentielles des LLMs. Pour relever ces défis, nous proposons un cadre de prédiction de performance en aval basé sur le Clustering-On-Difficulty (COD). COD construit d'abord un sous-ensemble de support prédictible en regroupant les tâches selon leurs caractéristiques de difficulté, excluant stratégiquement les clusters non émergents et non scalables. Les scores sur le sous-ensemble sélectionné servent de prédicteurs intermédiaires efficaces pour les performances en aval sur l'ensemble complet d'évaluation. Avec un support théorique, nous dérivons une fonction de mappage qui transforme les métriques de performance du sous-ensemble prédictible vers l'ensemble complet d'évaluation, assurant ainsi une extrapolation précise des performances en aval des LLMs. La méthode proposée a été appliquée pour prédire l'échelle de performance d'un LLM de 70 milliards de paramètres, fournissant des insights actionnables pour l'allocation des ressources d'entraînement et aidant à surveiller le processus d'entraînement. Notamment, COD atteint une précision prédictive remarquable sur le LLM de 70 milliards de paramètres en exploitant un ensemble de petits modèles, démontrant une déviation moyenne absolue de 1,36 % sur huit benchmarks importants d'évaluation des LLMs.
English
The rapid advancements in computing dramatically increase the scale and cost
of training Large Language Models (LLMs). Accurately predicting downstream task
performance prior to model training is crucial for efficient resource
allocation, yet remains challenging due to two primary constraints: (1) the
"emergence phenomenon", wherein downstream performance metrics become
meaningful only after extensive training, which limits the ability to use
smaller models for prediction; (2) Uneven task difficulty distributions and the
absence of consistent scaling laws, resulting in substantial metric
variability. Existing performance prediction methods suffer from limited
accuracy and reliability, thereby impeding the assessment of potential LLM
capabilities. To address these challenges, we propose a
Clustering-On-Difficulty (COD) downstream performance prediction framework. COD
first constructs a predictable support subset by clustering tasks based on
difficulty features, strategically excluding non-emergent and non-scalable
clusters. The scores on the selected subset serve as effective intermediate
predictors of downstream performance on the full evaluation set. With
theoretical support, we derive a mapping function that transforms performance
metrics from the predictable subset to the full evaluation set, thereby
ensuring accurate extrapolation of LLM downstream performance. The proposed
method has been applied to predict performance scaling for a 70B LLM, providing
actionable insights for training resource allocation and assisting in
monitoring the training process. Notably, COD achieves remarkable predictive
accuracy on the 70B LLM by leveraging an ensemble of small models,
demonstrating an absolute mean deviation of 1.36% across eight important LLM
evaluation benchmarks.Summary
AI-Generated Summary