ChatPaper.aiChatPaper

Svelare la Scalabilità delle Prestazioni a Valle dei Modelli Linguistici: Una Prospettiva Basata sul Clustering

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

February 24, 2025
Autori: Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li
cs.AI

Abstract

I rapidi progressi nel campo del calcolo aumentano in modo significativo la scala e il costo dell'addestramento dei Large Language Models (LLM). Prevedere con precisione le prestazioni sui task downstream prima dell'addestramento del modello è cruciale per un'allocazione efficiente delle risorse, ma rimane una sfida a causa di due vincoli principali: (1) il "fenomeno dell'emergenza", in cui le metriche di prestazione downstream diventano significative solo dopo un addestramento esteso, limitando la capacità di utilizzare modelli più piccoli per la previsione; (2) distribuzioni irregolari della difficoltà dei task e l'assenza di leggi di scala consistenti, che portano a una variabilità sostanziale delle metriche. I metodi esistenti di previsione delle prestazioni soffrono di accuratezza e affidabilità limitate, ostacolando così la valutazione delle potenziali capacità degli LLM. Per affrontare queste sfide, proponiamo un framework di previsione delle prestazioni downstream basato sul Clustering-On-Difficulty (COD). COD costruisce prima un sottoinsieme di supporto prevedibile raggruppando i task in base alle caratteristiche di difficoltà, escludendo strategicamente i cluster non emergenti e non scalabili. I punteggi sul sottoinsieme selezionato fungono da predittori intermedi efficaci delle prestazioni downstream sull'intero set di valutazione. Con supporto teorico, deriviamo una funzione di mappatura che trasforma le metriche di prestazione dal sottoinsieme prevedibile all'intero set di valutazione, garantendo così un'estrapolazione accurata delle prestazioni downstream degli LLM. Il metodo proposto è stato applicato per prevedere la scalabilità delle prestazioni di un LLM da 70B, fornendo indicazioni utili per l'allocazione delle risorse di addestramento e assistendo nel monitoraggio del processo di addestramento. In particolare, COD raggiunge un'accuratezza predittiva notevole sul LLM da 70B sfruttando un insieme di modelli più piccoli, dimostrando una deviazione media assoluta dell'1,36% su otto importanti benchmark di valutazione degli LLM.
English
The rapid advancements in computing dramatically increase the scale and cost of training Large Language Models (LLMs). Accurately predicting downstream task performance prior to model training is crucial for efficient resource allocation, yet remains challenging due to two primary constraints: (1) the "emergence phenomenon", wherein downstream performance metrics become meaningful only after extensive training, which limits the ability to use smaller models for prediction; (2) Uneven task difficulty distributions and the absence of consistent scaling laws, resulting in substantial metric variability. Existing performance prediction methods suffer from limited accuracy and reliability, thereby impeding the assessment of potential LLM capabilities. To address these challenges, we propose a Clustering-On-Difficulty (COD) downstream performance prediction framework. COD first constructs a predictable support subset by clustering tasks based on difficulty features, strategically excluding non-emergent and non-scalable clusters. The scores on the selected subset serve as effective intermediate predictors of downstream performance on the full evaluation set. With theoretical support, we derive a mapping function that transforms performance metrics from the predictable subset to the full evaluation set, thereby ensuring accurate extrapolation of LLM downstream performance. The proposed method has been applied to predict performance scaling for a 70B LLM, providing actionable insights for training resource allocation and assisting in monitoring the training process. Notably, COD achieves remarkable predictive accuracy on the 70B LLM by leveraging an ensemble of small models, demonstrating an absolute mean deviation of 1.36% across eight important LLM evaluation benchmarks.

Summary

AI-Generated Summary

PDF202February 26, 2025