ChatPaper.aiChatPaper

Het onthullen van de schaalbaarheid van downstream-prestaties van LLM's: een clustering-gebaseerd perspectief

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

February 24, 2025
Auteurs: Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li
cs.AI

Samenvatting

De snelle vooruitgang in de computertechnologie verhoogt de schaal en kosten van het trainen van Large Language Models (LLM's) aanzienlijk. Het nauwkeurig voorspellen van de prestaties op downstream taken vóór het trainen van het model is cruciaal voor een efficiënte toewijzing van middelen, maar blijft uitdagend vanwege twee primaire beperkingen: (1) het "emergence-fenomeen", waarbij prestatiemetingen voor downstream taken pas betekenisvol worden na uitgebreide training, wat het gebruik van kleinere modellen voor voorspelling beperkt; (2) ongelijke verdelingen van taakmoeilijkheden en het ontbreken van consistente schaalwetten, wat resulteert in aanzienlijke variabiliteit in metingen. Bestaande methoden voor prestatievoorspelling hebben beperkte nauwkeurigheid en betrouwbaarheid, wat de beoordeling van de potentiële mogelijkheden van LLM's belemmert. Om deze uitdagingen aan te pakken, stellen we een Clustering-On-Difficulty (COD) framework voor voor het voorspellen van downstream prestaties. COD construeert eerst een voorspelbare ondersteuningssubset door taken te clusteren op basis van moeilijkheidskenmerken, waarbij strategisch niet-emergente en niet-schaalbare clusters worden uitgesloten. De scores op de geselecteerde subset dienen als effectieve tussenliggende voorspellers van downstream prestaties op de volledige evaluatieset. Met theoretische ondersteuning leiden we een mappingfunctie af die prestatiemetingen van de voorspelbare subset omzet naar de volledige evaluatieset, waardoor een nauwkeurige extrapolatie van de downstream prestaties van LLM's wordt gegarandeerd. De voorgestelde methode is toegepast om de prestatieschaling van een 70B LLM te voorspellen, wat bruikbare inzichten biedt voor de toewijzing van trainingsmiddelen en helpt bij het monitoren van het trainingsproces. Opmerkelijk is dat COD opmerkelijke voorspellingsnauwkeurigheid bereikt op het 70B LLM door gebruik te maken van een ensemble van kleine modellen, met een absolute gemiddelde afwijking van 1,36% over acht belangrijke LLM-evaluatiebenchmarks.
English
The rapid advancements in computing dramatically increase the scale and cost of training Large Language Models (LLMs). Accurately predicting downstream task performance prior to model training is crucial for efficient resource allocation, yet remains challenging due to two primary constraints: (1) the "emergence phenomenon", wherein downstream performance metrics become meaningful only after extensive training, which limits the ability to use smaller models for prediction; (2) Uneven task difficulty distributions and the absence of consistent scaling laws, resulting in substantial metric variability. Existing performance prediction methods suffer from limited accuracy and reliability, thereby impeding the assessment of potential LLM capabilities. To address these challenges, we propose a Clustering-On-Difficulty (COD) downstream performance prediction framework. COD first constructs a predictable support subset by clustering tasks based on difficulty features, strategically excluding non-emergent and non-scalable clusters. The scores on the selected subset serve as effective intermediate predictors of downstream performance on the full evaluation set. With theoretical support, we derive a mapping function that transforms performance metrics from the predictable subset to the full evaluation set, thereby ensuring accurate extrapolation of LLM downstream performance. The proposed method has been applied to predict performance scaling for a 70B LLM, providing actionable insights for training resource allocation and assisting in monitoring the training process. Notably, COD achieves remarkable predictive accuracy on the 70B LLM by leveraging an ensemble of small models, demonstrating an absolute mean deviation of 1.36% across eight important LLM evaluation benchmarks.

Summary

AI-Generated Summary

PDF202February 26, 2025