Por Que a Previsão das Capacidades de Modelos de IA de Fronteira em Tarefas Posteriores com Escala Permanece Elusiva?

Resumo

Comportamento previsível ao dimensionar sistemas avançados de IA é uma propriedade extremamente desejável. Embora exista uma literatura bem estabelecida sobre como o desempenho no pré-treinamento escala, a literatura sobre como capacidades específicas em tarefas subsequentes escalam é significativamente mais confusa. Neste trabalho, damos um passo atrás e perguntamos: por que prever capacidades específicas em tarefas subsequentes com o dimensionamento tem se mostrado tão difícil? Embora muitos fatores certamente sejam responsáveis, identificamos um novo fator que torna desafiador modelar o comportamento de dimensionamento em benchmarks amplamente utilizados de respostas a perguntas de múltipla escolha. Utilizando cinco famílias de modelos e doze benchmarks bem estabelecidos de múltipla escolha, mostramos que o desempenho em tarefas subsequentes é calculado a partir de logaritmos negativos de verossimilhança por meio de uma sequência de transformações que degradam progressivamente a relação estatística entre desempenho e dimensionamento. Em seguida, revelamos o mecanismo que causa essa degradação: as métricas de tarefas subsequentes exigem comparar a escolha correta contra um pequeno número de escolhas incorretas específicas, o que significa que prever com precisão as capacidades em tarefas subsequentes requer prever não apenas como a massa de probabilidade se concentra na escolha correta com o dimensionamento, mas também como a massa de probabilidade flutua em escolhas incorretas específicas com o dimensionamento. Estudamos empiricamente como a massa de probabilidade na escolha correta co-varia com a massa de probabilidade em escolhas incorretas com o aumento de recursos computacionais, sugerindo que leis de dimensionamento para escolhas incorretas podem ser alcançáveis. Nosso trabalho também explica por que as leis de dimensionamento no pré-treinamento são comumente consideradas mais previsíveis do que as capacidades em tarefas subsequentes e contribui para o estabelecimento de avaliações previsíveis em termos de dimensionamento para modelos de IA de fronteira.

English

Predictable behavior from scaling advanced AI systems is an extremely desirable property. Although a well-established literature exists on how pretraining performance scales, the literature on how particular downstream capabilities scale is significantly muddier. In this work, we take a step back and ask: why has predicting specific downstream capabilities with scale remained elusive? While many factors are certainly responsible, we identify a new factor that makes modeling scaling behavior on widely used multiple-choice question-answering benchmarks challenging. Using five model families and twelve well-established multiple-choice benchmarks, we show that downstream performance is computed from negative log likelihoods via a sequence of transformations that progressively degrade the statistical relationship between performance and scale. We then reveal the mechanism causing this degradation: downstream metrics require comparing the correct choice against a small number of specific incorrect choices, meaning accurately predicting downstream capabilities requires predicting not just how probability mass concentrates on the correct choice with scale, but also how probability mass fluctuates on specific incorrect choices with scale. We empirically study how probability mass on the correct choice co-varies with probability mass on incorrect choices with increasing compute, suggesting that scaling laws for incorrect choices might be achievable. Our work also explains why pretraining scaling laws are commonly regarded as more predictable than downstream capabilities and contributes towards establishing scaling-predictable evaluations of frontier AI models.

Por Que a Previsão das Capacidades de Modelos de IA de Fronteira em Tarefas Posteriores com Escala Permanece Elusiva?

Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?

Resumo

Support