ChatPaper.aiChatPaper

Revelando a Escalabilidade de Desempenho Downstream de LLMs: Uma Perspectiva Baseada em Agrupamento

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

February 24, 2025
Autores: Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li
cs.AI

Resumo

Os rápidos avanços na computação aumentam drasticamente a escala e o custo de treinamento de Modelos de Linguagem de Grande Escala (LLMs). Prever com precisão o desempenho em tarefas subsequentes antes do treinamento do modelo é crucial para uma alocação eficiente de recursos, mas continua sendo um desafio devido a duas restrições principais: (1) o "fenômeno de emergência", no qual as métricas de desempenho em tarefas subsequentes só se tornam significativas após um treinamento extensivo, o que limita a capacidade de usar modelos menores para previsão; (2) Distribuições desiguais de dificuldade das tarefas e a ausência de leis de escalonamento consistentes, resultando em uma variabilidade substancial das métricas. Os métodos existentes de previsão de desempenho sofrem com precisão e confiabilidade limitadas, dificultando a avaliação das capacidades potenciais dos LLMs. Para enfrentar esses desafios, propomos um framework de previsão de desempenho subsequente chamado Clustering-On-Difficulty (COD). O COD primeiro constrói um subconjunto de suporte previsível agrupando tarefas com base em características de dificuldade, excluindo estrategicamente clusters não emergentes e não escaláveis. As pontuações no subconjunto selecionado servem como preditores intermediários eficazes do desempenho subsequente no conjunto completo de avaliação. Com suporte teórico, derivamos uma função de mapeamento que transforma as métricas de desempenho do subconjunto previsível para o conjunto completo de avaliação, garantindo assim uma extrapolação precisa do desempenho subsequente do LLM. O método proposto foi aplicado para prever o escalonamento de desempenho de um LLM de 70B, fornecendo insights acionáveis para a alocação de recursos de treinamento e auxiliando no monitoramento do processo de treinamento. Notavelmente, o COD alcança uma precisão preditiva notável no LLM de 70B ao aproveitar um conjunto de modelos pequenos, demonstrando um desvio médio absoluto de 1,36% em oito benchmarks importantes de avaliação de LLMs.
English
The rapid advancements in computing dramatically increase the scale and cost of training Large Language Models (LLMs). Accurately predicting downstream task performance prior to model training is crucial for efficient resource allocation, yet remains challenging due to two primary constraints: (1) the "emergence phenomenon", wherein downstream performance metrics become meaningful only after extensive training, which limits the ability to use smaller models for prediction; (2) Uneven task difficulty distributions and the absence of consistent scaling laws, resulting in substantial metric variability. Existing performance prediction methods suffer from limited accuracy and reliability, thereby impeding the assessment of potential LLM capabilities. To address these challenges, we propose a Clustering-On-Difficulty (COD) downstream performance prediction framework. COD first constructs a predictable support subset by clustering tasks based on difficulty features, strategically excluding non-emergent and non-scalable clusters. The scores on the selected subset serve as effective intermediate predictors of downstream performance on the full evaluation set. With theoretical support, we derive a mapping function that transforms performance metrics from the predictable subset to the full evaluation set, thereby ensuring accurate extrapolation of LLM downstream performance. The proposed method has been applied to predict performance scaling for a 70B LLM, providing actionable insights for training resource allocation and assisting in monitoring the training process. Notably, COD achieves remarkable predictive accuracy on the 70B LLM by leveraging an ensemble of small models, demonstrating an absolute mean deviation of 1.36% across eight important LLM evaluation benchmarks.

Summary

AI-Generated Summary

PDF202February 26, 2025