¿Por qué ha resultado difícil predecir las capacidades posteriores de los modelos de IA de vanguardia con el escalamiento?
Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?
June 6, 2024
Autores: Rylan Schaeffer, Hailey Schoelkopf, Brando Miranda, Gabriel Mukobi, Varun Madan, Adam Ibrahim, Herbie Bradley, Stella Biderman, Sanmi Koyejo
cs.AI
Resumen
El comportamiento predecible al escalar sistemas avanzados de inteligencia artificial es una propiedad extremadamente deseable. Aunque existe una literatura bien establecida sobre cómo escala el rendimiento durante el preentrenamiento, la literatura sobre cómo escalan capacidades específicas en tareas posteriores es significativamente más confusa. En este trabajo, damos un paso atrás y nos preguntamos: ¿por qué ha resultado difícil predecir capacidades específicas en tareas posteriores con el escalamiento? Si bien muchos factores son ciertamente responsables, identificamos un nuevo factor que hace que modelar el comportamiento de escalamiento en puntos de referencia ampliamente utilizados de preguntas de opción múltiple sea un desafío. Utilizando cinco familias de modelos y doce puntos de referencia bien establecidos de preguntas de opción múltiple, demostramos que el rendimiento en tareas posteriores se calcula a partir de las probabilidades logarítmicas negativas mediante una secuencia de transformaciones que degradan progresivamente la relación estadística entre el rendimiento y el escalamiento. Luego revelamos el mecanismo que causa esta degradación: las métricas de tareas posteriores requieren comparar la opción correcta con un pequeño número de opciones incorrectas específicas, lo que significa que predecir con precisión las capacidades en tareas posteriores requiere predecir no solo cómo se concentra la masa de probabilidad en la opción correcta con el escalamiento, sino también cómo fluctúa la masa de probabilidad en opciones incorrectas específicas con el escalamiento. Estudiamos empíricamente cómo la masa de probabilidad en la opción correcta co-varía con la masa de probabilidad en opciones incorrectas con un aumento en el cómputo, sugiriendo que podrían ser alcanzables leyes de escalamiento para las opciones incorrectas. Nuestro trabajo también explica por qué las leyes de escalamiento del preentrenamiento se consideran comúnmente más predecibles que las capacidades en tareas posteriores y contribuye a establecer evaluaciones predecibles con escalamiento de modelos de IA de vanguardia.
English
Predictable behavior from scaling advanced AI systems is an extremely
desirable property. Although a well-established literature exists on how
pretraining performance scales, the literature on how particular downstream
capabilities scale is significantly muddier. In this work, we take a step back
and ask: why has predicting specific downstream capabilities with scale
remained elusive? While many factors are certainly responsible, we identify a
new factor that makes modeling scaling behavior on widely used multiple-choice
question-answering benchmarks challenging. Using five model families and twelve
well-established multiple-choice benchmarks, we show that downstream
performance is computed from negative log likelihoods via a sequence of
transformations that progressively degrade the statistical relationship between
performance and scale. We then reveal the mechanism causing this degradation:
downstream metrics require comparing the correct choice against a small number
of specific incorrect choices, meaning accurately predicting downstream
capabilities requires predicting not just how probability mass concentrates on
the correct choice with scale, but also how probability mass fluctuates on
specific incorrect choices with scale. We empirically study how probability
mass on the correct choice co-varies with probability mass on incorrect choices
with increasing compute, suggesting that scaling laws for incorrect choices
might be achievable. Our work also explains why pretraining scaling laws are
commonly regarded as more predictable than downstream capabilities and
contributes towards establishing scaling-predictable evaluations of frontier AI
models.Summary
AI-Generated Summary