Revelando el Escalamiento del Rendimiento en Tareas Posteriores de los LLM: Una Perspectiva Basada en Agrupamiento
Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective
February 24, 2025
Autores: Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li
cs.AI
Resumen
Los rápidos avances en computación aumentan drásticamente la escala y el costo del entrenamiento de Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Predecir con precisión el rendimiento en tareas posteriores antes del entrenamiento del modelo es crucial para una asignación eficiente de recursos, pero sigue siendo un desafío debido a dos limitaciones principales: (1) el "fenómeno de emergencia", en el que las métricas de rendimiento en tareas posteriores solo se vuelven significativas después de un entrenamiento extenso, lo que limita la capacidad de usar modelos más pequeños para la predicción; (2) distribuciones desiguales de dificultad de las tareas y la ausencia de leyes de escalado consistentes, lo que resulta en una variabilidad sustancial de las métricas. Los métodos existentes de predicción de rendimiento adolecen de precisión y fiabilidad limitadas, lo que dificulta la evaluación de las capacidades potenciales de los LLMs. Para abordar estos desafíos, proponemos un marco de predicción de rendimiento en tareas posteriores basado en Agrupación por Dificultad (COD, por sus siglas en inglés). COD primero construye un subconjunto de soporte predecible agrupando tareas según características de dificultad, excluyendo estratégicamente los grupos no emergentes y no escalables. Las puntuaciones en el subconjunto seleccionado sirven como predictores intermedios efectivos del rendimiento en el conjunto completo de evaluación. Con respaldo teórico, derivamos una función de mapeo que transforma las métricas de rendimiento del subconjunto predecible al conjunto completo de evaluación, asegurando así una extrapolación precisa del rendimiento posterior de los LLMs. El método propuesto se ha aplicado para predecir la escalabilidad del rendimiento de un LLM de 70B, proporcionando información útil para la asignación de recursos de entrenamiento y ayudando a monitorear el proceso de entrenamiento. Notablemente, COD logra una precisión predictiva destacada en el LLM de 70B al aprovechar un conjunto de modelos pequeños, demostrando una desviación media absoluta del 1.36% en ocho importantes puntos de referencia de evaluación de LLMs.
English
The rapid advancements in computing dramatically increase the scale and cost
of training Large Language Models (LLMs). Accurately predicting downstream task
performance prior to model training is crucial for efficient resource
allocation, yet remains challenging due to two primary constraints: (1) the
"emergence phenomenon", wherein downstream performance metrics become
meaningful only after extensive training, which limits the ability to use
smaller models for prediction; (2) Uneven task difficulty distributions and the
absence of consistent scaling laws, resulting in substantial metric
variability. Existing performance prediction methods suffer from limited
accuracy and reliability, thereby impeding the assessment of potential LLM
capabilities. To address these challenges, we propose a
Clustering-On-Difficulty (COD) downstream performance prediction framework. COD
first constructs a predictable support subset by clustering tasks based on
difficulty features, strategically excluding non-emergent and non-scalable
clusters. The scores on the selected subset serve as effective intermediate
predictors of downstream performance on the full evaluation set. With
theoretical support, we derive a mapping function that transforms performance
metrics from the predictable subset to the full evaluation set, thereby
ensuring accurate extrapolation of LLM downstream performance. The proposed
method has been applied to predict performance scaling for a 70B LLM, providing
actionable insights for training resource allocation and assisting in
monitoring the training process. Notably, COD achieves remarkable predictive
accuracy on the 70B LLM by leveraging an ensemble of small models,
demonstrating an absolute mean deviation of 1.36% across eight important LLM
evaluation benchmarks.Summary
AI-Generated Summary