Het onthullen van de schaalbaarheid van downstream-prestaties van LLM's: een clustering-gebaseerd perspectief
Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective
February 24, 2025
Auteurs: Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li
cs.AI
Samenvatting
De snelle vooruitgang in de computertechnologie verhoogt de schaal en kosten van het trainen van Large Language Models (LLM's) aanzienlijk. Het nauwkeurig voorspellen van de prestaties op downstream taken vóór het trainen van het model is cruciaal voor een efficiënte toewijzing van middelen, maar blijft uitdagend vanwege twee primaire beperkingen: (1) het "emergence-fenomeen", waarbij prestatiemetingen voor downstream taken pas betekenisvol worden na uitgebreide training, wat het gebruik van kleinere modellen voor voorspelling beperkt; (2) ongelijke verdelingen van taakmoeilijkheden en het ontbreken van consistente schaalwetten, wat resulteert in aanzienlijke variabiliteit in metingen. Bestaande methoden voor prestatievoorspelling hebben beperkte nauwkeurigheid en betrouwbaarheid, wat de beoordeling van de potentiële mogelijkheden van LLM's belemmert. Om deze uitdagingen aan te pakken, stellen we een Clustering-On-Difficulty (COD) framework voor voor het voorspellen van downstream prestaties. COD construeert eerst een voorspelbare ondersteuningssubset door taken te clusteren op basis van moeilijkheidskenmerken, waarbij strategisch niet-emergente en niet-schaalbare clusters worden uitgesloten. De scores op de geselecteerde subset dienen als effectieve tussenliggende voorspellers van downstream prestaties op de volledige evaluatieset. Met theoretische ondersteuning leiden we een mappingfunctie af die prestatiemetingen van de voorspelbare subset omzet naar de volledige evaluatieset, waardoor een nauwkeurige extrapolatie van de downstream prestaties van LLM's wordt gegarandeerd. De voorgestelde methode is toegepast om de prestatieschaling van een 70B LLM te voorspellen, wat bruikbare inzichten biedt voor de toewijzing van trainingsmiddelen en helpt bij het monitoren van het trainingsproces. Opmerkelijk is dat COD opmerkelijke voorspellingsnauwkeurigheid bereikt op het 70B LLM door gebruik te maken van een ensemble van kleine modellen, met een absolute gemiddelde afwijking van 1,36% over acht belangrijke LLM-evaluatiebenchmarks.
English
The rapid advancements in computing dramatically increase the scale and cost
of training Large Language Models (LLMs). Accurately predicting downstream task
performance prior to model training is crucial for efficient resource
allocation, yet remains challenging due to two primary constraints: (1) the
"emergence phenomenon", wherein downstream performance metrics become
meaningful only after extensive training, which limits the ability to use
smaller models for prediction; (2) Uneven task difficulty distributions and the
absence of consistent scaling laws, resulting in substantial metric
variability. Existing performance prediction methods suffer from limited
accuracy and reliability, thereby impeding the assessment of potential LLM
capabilities. To address these challenges, we propose a
Clustering-On-Difficulty (COD) downstream performance prediction framework. COD
first constructs a predictable support subset by clustering tasks based on
difficulty features, strategically excluding non-emergent and non-scalable
clusters. The scores on the selected subset serve as effective intermediate
predictors of downstream performance on the full evaluation set. With
theoretical support, we derive a mapping function that transforms performance
metrics from the predictable subset to the full evaluation set, thereby
ensuring accurate extrapolation of LLM downstream performance. The proposed
method has been applied to predict performance scaling for a 70B LLM, providing
actionable insights for training resource allocation and assisting in
monitoring the training process. Notably, COD achieves remarkable predictive
accuracy on the 70B LLM by leveraging an ensemble of small models,
demonstrating an absolute mean deviation of 1.36% across eight important LLM
evaluation benchmarks.Summary
AI-Generated Summary