ChatPaper.aiChatPaper

Revelando el Escalamiento del Rendimiento en Tareas Posteriores de los LLM: Una Perspectiva Basada en Agrupamiento

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

February 24, 2025
Autores: Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li
cs.AI

Resumen

Los rápidos avances en computación aumentan drásticamente la escala y el costo del entrenamiento de Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Predecir con precisión el rendimiento en tareas posteriores antes del entrenamiento del modelo es crucial para una asignación eficiente de recursos, pero sigue siendo un desafío debido a dos limitaciones principales: (1) el "fenómeno de emergencia", en el que las métricas de rendimiento en tareas posteriores solo se vuelven significativas después de un entrenamiento extenso, lo que limita la capacidad de usar modelos más pequeños para la predicción; (2) distribuciones desiguales de dificultad de las tareas y la ausencia de leyes de escalado consistentes, lo que resulta en una variabilidad sustancial de las métricas. Los métodos existentes de predicción de rendimiento adolecen de precisión y fiabilidad limitadas, lo que dificulta la evaluación de las capacidades potenciales de los LLMs. Para abordar estos desafíos, proponemos un marco de predicción de rendimiento en tareas posteriores basado en Agrupación por Dificultad (COD, por sus siglas en inglés). COD primero construye un subconjunto de soporte predecible agrupando tareas según características de dificultad, excluyendo estratégicamente los grupos no emergentes y no escalables. Las puntuaciones en el subconjunto seleccionado sirven como predictores intermedios efectivos del rendimiento en el conjunto completo de evaluación. Con respaldo teórico, derivamos una función de mapeo que transforma las métricas de rendimiento del subconjunto predecible al conjunto completo de evaluación, asegurando así una extrapolación precisa del rendimiento posterior de los LLMs. El método propuesto se ha aplicado para predecir la escalabilidad del rendimiento de un LLM de 70B, proporcionando información útil para la asignación de recursos de entrenamiento y ayudando a monitorear el proceso de entrenamiento. Notablemente, COD logra una precisión predictiva destacada en el LLM de 70B al aprovechar un conjunto de modelos pequeños, demostrando una desviación media absoluta del 1.36% en ocho importantes puntos de referencia de evaluación de LLMs.
English
The rapid advancements in computing dramatically increase the scale and cost of training Large Language Models (LLMs). Accurately predicting downstream task performance prior to model training is crucial for efficient resource allocation, yet remains challenging due to two primary constraints: (1) the "emergence phenomenon", wherein downstream performance metrics become meaningful only after extensive training, which limits the ability to use smaller models for prediction; (2) Uneven task difficulty distributions and the absence of consistent scaling laws, resulting in substantial metric variability. Existing performance prediction methods suffer from limited accuracy and reliability, thereby impeding the assessment of potential LLM capabilities. To address these challenges, we propose a Clustering-On-Difficulty (COD) downstream performance prediction framework. COD first constructs a predictable support subset by clustering tasks based on difficulty features, strategically excluding non-emergent and non-scalable clusters. The scores on the selected subset serve as effective intermediate predictors of downstream performance on the full evaluation set. With theoretical support, we derive a mapping function that transforms performance metrics from the predictable subset to the full evaluation set, thereby ensuring accurate extrapolation of LLM downstream performance. The proposed method has been applied to predict performance scaling for a 70B LLM, providing actionable insights for training resource allocation and assisting in monitoring the training process. Notably, COD achieves remarkable predictive accuracy on the 70B LLM by leveraging an ensemble of small models, demonstrating an absolute mean deviation of 1.36% across eight important LLM evaluation benchmarks.

Summary

AI-Generated Summary

PDF202February 26, 2025