Por Que a Previsão das Capacidades de Modelos de IA de Fronteira em Tarefas Posteriores com Escala Permanece Elusiva?
Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?
June 6, 2024
Autores: Rylan Schaeffer, Hailey Schoelkopf, Brando Miranda, Gabriel Mukobi, Varun Madan, Adam Ibrahim, Herbie Bradley, Stella Biderman, Sanmi Koyejo
cs.AI
Resumo
Comportamento previsível ao dimensionar sistemas avançados de IA é uma propriedade extremamente desejável. Embora exista uma literatura bem estabelecida sobre como o desempenho no pré-treinamento escala, a literatura sobre como capacidades específicas em tarefas subsequentes escalam é significativamente mais confusa. Neste trabalho, damos um passo atrás e perguntamos: por que prever capacidades específicas em tarefas subsequentes com o dimensionamento tem se mostrado tão difícil? Embora muitos fatores certamente sejam responsáveis, identificamos um novo fator que torna desafiador modelar o comportamento de dimensionamento em benchmarks amplamente utilizados de respostas a perguntas de múltipla escolha. Utilizando cinco famílias de modelos e doze benchmarks bem estabelecidos de múltipla escolha, mostramos que o desempenho em tarefas subsequentes é calculado a partir de logaritmos negativos de verossimilhança por meio de uma sequência de transformações que degradam progressivamente a relação estatística entre desempenho e dimensionamento. Em seguida, revelamos o mecanismo que causa essa degradação: as métricas de tarefas subsequentes exigem comparar a escolha correta contra um pequeno número de escolhas incorretas específicas, o que significa que prever com precisão as capacidades em tarefas subsequentes requer prever não apenas como a massa de probabilidade se concentra na escolha correta com o dimensionamento, mas também como a massa de probabilidade flutua em escolhas incorretas específicas com o dimensionamento. Estudamos empiricamente como a massa de probabilidade na escolha correta co-varia com a massa de probabilidade em escolhas incorretas com o aumento de recursos computacionais, sugerindo que leis de dimensionamento para escolhas incorretas podem ser alcançáveis. Nosso trabalho também explica por que as leis de dimensionamento no pré-treinamento são comumente consideradas mais previsíveis do que as capacidades em tarefas subsequentes e contribui para o estabelecimento de avaliações previsíveis em termos de dimensionamento para modelos de IA de fronteira.
English
Predictable behavior from scaling advanced AI systems is an extremely
desirable property. Although a well-established literature exists on how
pretraining performance scales, the literature on how particular downstream
capabilities scale is significantly muddier. In this work, we take a step back
and ask: why has predicting specific downstream capabilities with scale
remained elusive? While many factors are certainly responsible, we identify a
new factor that makes modeling scaling behavior on widely used multiple-choice
question-answering benchmarks challenging. Using five model families and twelve
well-established multiple-choice benchmarks, we show that downstream
performance is computed from negative log likelihoods via a sequence of
transformations that progressively degrade the statistical relationship between
performance and scale. We then reveal the mechanism causing this degradation:
downstream metrics require comparing the correct choice against a small number
of specific incorrect choices, meaning accurately predicting downstream
capabilities requires predicting not just how probability mass concentrates on
the correct choice with scale, but also how probability mass fluctuates on
specific incorrect choices with scale. We empirically study how probability
mass on the correct choice co-varies with probability mass on incorrect choices
with increasing compute, suggesting that scaling laws for incorrect choices
might be achievable. Our work also explains why pretraining scaling laws are
commonly regarded as more predictable than downstream capabilities and
contributes towards establishing scaling-predictable evaluations of frontier AI
models.