Revelando a Escalabilidade de Desempenho Downstream de LLMs: Uma Perspectiva Baseada em Agrupamento
Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective
February 24, 2025
Autores: Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li
cs.AI
Resumo
Os rápidos avanços na computação aumentam drasticamente a escala e o custo de treinamento de Modelos de Linguagem de Grande Escala (LLMs). Prever com precisão o desempenho em tarefas subsequentes antes do treinamento do modelo é crucial para uma alocação eficiente de recursos, mas continua sendo um desafio devido a duas restrições principais: (1) o "fenômeno de emergência", no qual as métricas de desempenho em tarefas subsequentes só se tornam significativas após um treinamento extensivo, o que limita a capacidade de usar modelos menores para previsão; (2) Distribuições desiguais de dificuldade das tarefas e a ausência de leis de escalonamento consistentes, resultando em uma variabilidade substancial das métricas. Os métodos existentes de previsão de desempenho sofrem com precisão e confiabilidade limitadas, dificultando a avaliação das capacidades potenciais dos LLMs. Para enfrentar esses desafios, propomos um framework de previsão de desempenho subsequente chamado Clustering-On-Difficulty (COD). O COD primeiro constrói um subconjunto de suporte previsível agrupando tarefas com base em características de dificuldade, excluindo estrategicamente clusters não emergentes e não escaláveis. As pontuações no subconjunto selecionado servem como preditores intermediários eficazes do desempenho subsequente no conjunto completo de avaliação. Com suporte teórico, derivamos uma função de mapeamento que transforma as métricas de desempenho do subconjunto previsível para o conjunto completo de avaliação, garantindo assim uma extrapolação precisa do desempenho subsequente do LLM. O método proposto foi aplicado para prever o escalonamento de desempenho de um LLM de 70B, fornecendo insights acionáveis para a alocação de recursos de treinamento e auxiliando no monitoramento do processo de treinamento. Notavelmente, o COD alcança uma precisão preditiva notável no LLM de 70B ao aproveitar um conjunto de modelos pequenos, demonstrando um desvio médio absoluto de 1,36% em oito benchmarks importantes de avaliação de LLMs.
English
The rapid advancements in computing dramatically increase the scale and cost
of training Large Language Models (LLMs). Accurately predicting downstream task
performance prior to model training is crucial for efficient resource
allocation, yet remains challenging due to two primary constraints: (1) the
"emergence phenomenon", wherein downstream performance metrics become
meaningful only after extensive training, which limits the ability to use
smaller models for prediction; (2) Uneven task difficulty distributions and the
absence of consistent scaling laws, resulting in substantial metric
variability. Existing performance prediction methods suffer from limited
accuracy and reliability, thereby impeding the assessment of potential LLM
capabilities. To address these challenges, we propose a
Clustering-On-Difficulty (COD) downstream performance prediction framework. COD
first constructs a predictable support subset by clustering tasks based on
difficulty features, strategically excluding non-emergent and non-scalable
clusters. The scores on the selected subset serve as effective intermediate
predictors of downstream performance on the full evaluation set. With
theoretical support, we derive a mapping function that transforms performance
metrics from the predictable subset to the full evaluation set, thereby
ensuring accurate extrapolation of LLM downstream performance. The proposed
method has been applied to predict performance scaling for a 70B LLM, providing
actionable insights for training resource allocation and assisting in
monitoring the training process. Notably, COD achieves remarkable predictive
accuracy on the 70B LLM by leveraging an ensemble of small models,
demonstrating an absolute mean deviation of 1.36% across eight important LLM
evaluation benchmarks.Summary
AI-Generated Summary