ChatPaper.aiChatPaper

Enthüllung der Skalierung der Downstream-Leistung von LLMs: Eine clusterbasierte Perspektive

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

February 24, 2025
Autoren: Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li
cs.AI

Zusammenfassung

Die rasanten Fortschritte in der Computertechnologie erhöhen den Umfang und die Kosten des Trainings von Large Language Models (LLMs) dramatisch. Die genaue Vorhersage der Leistung bei nachgelagerten Aufgaben vor dem Modelltraining ist entscheidend für eine effiziente Ressourcenallokation, bleibt jedoch aufgrund von zwei Hauptbeschränkungen eine Herausforderung: (1) das „Emergenzphänomen“, bei dem Metriken für die nachgelagerte Leistung erst nach umfangreichem Training aussagekräftig werden, was die Verwendung kleinerer Modelle zur Vorhersage einschränkt; (2) ungleichmäßige Verteilungen der Aufgabenkomplexität und das Fehlen konsistenter Skalierungsgesetze, was zu erheblichen Schwankungen in den Metriken führt. Bestehende Methoden zur Leistungsvorhersage leiden unter begrenzter Genauigkeit und Zuverlässigkeit, was die Bewertung der potenziellen Fähigkeiten von LLMs behindert. Um diese Herausforderungen zu bewältigen, schlagen wir ein Clustering-On-Difficulty (COD)-Framework zur Vorhersage der nachgelagerten Leistung vor. COD konstruiert zunächst eine vorhersagbare Unterstützungsmenge, indem Aufgaben basierend auf Schwierigkeitsmerkmenge gruppiert werden, wobei strategisch nicht-emergente und nicht skalierbare Cluster ausgeschlossen werden. Die Bewertungen auf der ausgewählten Teilmenge dienen als effektive Zwischenprädiktoren für die nachgelagerte Leistung auf dem vollständigen Evaluationsdatensatz. Mit theoretischer Unterstützung leiten wir eine Abbildungsfunktion ab, die Leistungsmetriken von der vorhersagbaren Teilmenge auf den vollständigen Evaluationsdatensatz transformiert, wodurch eine genaue Extrapolation der nachgelagerten Leistung von LLMs sichergestellt wird. Die vorgeschlagene Methode wurde zur Vorhersage der Leistungsskalierung eines 70B-LLMs eingesetzt und liefert umsetzbare Erkenntnisse für die Allokation von Trainingsressourcen sowie für die Überwachung des Trainingsprozesses. Bemerkenswert ist, dass COD eine bemerkenswerte Vorhersagegenauigkeit beim 70B-LLM erreicht, indem ein Ensemble kleiner Modelle genutzt wird, was eine absolute mittlere Abweichung von 1,36 % über acht wichtige LLM-Evaluationsbenchmarks demonstriert.
English
The rapid advancements in computing dramatically increase the scale and cost of training Large Language Models (LLMs). Accurately predicting downstream task performance prior to model training is crucial for efficient resource allocation, yet remains challenging due to two primary constraints: (1) the "emergence phenomenon", wherein downstream performance metrics become meaningful only after extensive training, which limits the ability to use smaller models for prediction; (2) Uneven task difficulty distributions and the absence of consistent scaling laws, resulting in substantial metric variability. Existing performance prediction methods suffer from limited accuracy and reliability, thereby impeding the assessment of potential LLM capabilities. To address these challenges, we propose a Clustering-On-Difficulty (COD) downstream performance prediction framework. COD first constructs a predictable support subset by clustering tasks based on difficulty features, strategically excluding non-emergent and non-scalable clusters. The scores on the selected subset serve as effective intermediate predictors of downstream performance on the full evaluation set. With theoretical support, we derive a mapping function that transforms performance metrics from the predictable subset to the full evaluation set, thereby ensuring accurate extrapolation of LLM downstream performance. The proposed method has been applied to predict performance scaling for a 70B LLM, providing actionable insights for training resource allocation and assisting in monitoring the training process. Notably, COD achieves remarkable predictive accuracy on the 70B LLM by leveraging an ensemble of small models, demonstrating an absolute mean deviation of 1.36% across eight important LLM evaluation benchmarks.

Summary

AI-Generated Summary

PDF202February 26, 2025