Enthüllung der Skalierung der Downstream-Leistung von LLMs: Eine clusterbasierte Perspektive
Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective
February 24, 2025
Autoren: Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li
cs.AI
Zusammenfassung
Die rasanten Fortschritte in der Computertechnologie erhöhen den Umfang und die Kosten des Trainings von Large Language Models (LLMs) dramatisch. Die genaue Vorhersage der Leistung bei nachgelagerten Aufgaben vor dem Modelltraining ist entscheidend für eine effiziente Ressourcenallokation, bleibt jedoch aufgrund von zwei Hauptbeschränkungen eine Herausforderung: (1) das „Emergenzphänomen“, bei dem Metriken für die nachgelagerte Leistung erst nach umfangreichem Training aussagekräftig werden, was die Verwendung kleinerer Modelle zur Vorhersage einschränkt; (2) ungleichmäßige Verteilungen der Aufgabenkomplexität und das Fehlen konsistenter Skalierungsgesetze, was zu erheblichen Schwankungen in den Metriken führt. Bestehende Methoden zur Leistungsvorhersage leiden unter begrenzter Genauigkeit und Zuverlässigkeit, was die Bewertung der potenziellen Fähigkeiten von LLMs behindert. Um diese Herausforderungen zu bewältigen, schlagen wir ein Clustering-On-Difficulty (COD)-Framework zur Vorhersage der nachgelagerten Leistung vor. COD konstruiert zunächst eine vorhersagbare Unterstützungsmenge, indem Aufgaben basierend auf Schwierigkeitsmerkmenge gruppiert werden, wobei strategisch nicht-emergente und nicht skalierbare Cluster ausgeschlossen werden. Die Bewertungen auf der ausgewählten Teilmenge dienen als effektive Zwischenprädiktoren für die nachgelagerte Leistung auf dem vollständigen Evaluationsdatensatz. Mit theoretischer Unterstützung leiten wir eine Abbildungsfunktion ab, die Leistungsmetriken von der vorhersagbaren Teilmenge auf den vollständigen Evaluationsdatensatz transformiert, wodurch eine genaue Extrapolation der nachgelagerten Leistung von LLMs sichergestellt wird. Die vorgeschlagene Methode wurde zur Vorhersage der Leistungsskalierung eines 70B-LLMs eingesetzt und liefert umsetzbare Erkenntnisse für die Allokation von Trainingsressourcen sowie für die Überwachung des Trainingsprozesses. Bemerkenswert ist, dass COD eine bemerkenswerte Vorhersagegenauigkeit beim 70B-LLM erreicht, indem ein Ensemble kleiner Modelle genutzt wird, was eine absolute mittlere Abweichung von 1,36 % über acht wichtige LLM-Evaluationsbenchmarks demonstriert.
English
The rapid advancements in computing dramatically increase the scale and cost
of training Large Language Models (LLMs). Accurately predicting downstream task
performance prior to model training is crucial for efficient resource
allocation, yet remains challenging due to two primary constraints: (1) the
"emergence phenomenon", wherein downstream performance metrics become
meaningful only after extensive training, which limits the ability to use
smaller models for prediction; (2) Uneven task difficulty distributions and the
absence of consistent scaling laws, resulting in substantial metric
variability. Existing performance prediction methods suffer from limited
accuracy and reliability, thereby impeding the assessment of potential LLM
capabilities. To address these challenges, we propose a
Clustering-On-Difficulty (COD) downstream performance prediction framework. COD
first constructs a predictable support subset by clustering tasks based on
difficulty features, strategically excluding non-emergent and non-scalable
clusters. The scores on the selected subset serve as effective intermediate
predictors of downstream performance on the full evaluation set. With
theoretical support, we derive a mapping function that transforms performance
metrics from the predictable subset to the full evaluation set, thereby
ensuring accurate extrapolation of LLM downstream performance. The proposed
method has been applied to predict performance scaling for a 70B LLM, providing
actionable insights for training resource allocation and assisting in
monitoring the training process. Notably, COD achieves remarkable predictive
accuracy on the 70B LLM by leveraging an ensemble of small models,
demonstrating an absolute mean deviation of 1.36% across eight important LLM
evaluation benchmarks.Summary
AI-Generated Summary