왜 스케일링에 따른 최첨단 AI 모델의 다운스트림 능력 예측은 여전히 어려운가?
Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?
June 6, 2024
저자: Rylan Schaeffer, Hailey Schoelkopf, Brando Miranda, Gabriel Mukobi, Varun Madan, Adam Ibrahim, Herbie Bradley, Stella Biderman, Sanmi Koyejo
cs.AI
초록
고급 AI 시스템의 확장에서 예측 가능한 행동은 매우 바람직한 특성입니다. 사전 학습 성능이 어떻게 확장되는지에 대한 문헌은 잘 정립되어 있지만, 특정 다운스트림 능력이 어떻게 확장되는지에 대한 문헌은 상당히 불분명합니다. 본 연구에서는 한 걸음 물러나 질문합니다: 왜 규모에 따른 특정 다운스트림 능력 예측은 여전히 어려운가? 많은 요인이 분명히 있지만, 우리는 널리 사용되는 객관식 질문-응답 벤치마크에서 확장 행동을 모델링하기 어렵게 만드는 새로운 요인을 식별합니다. 다섯 가지 모델 패밀리와 열두 개의 잘 정립된 객관식 벤치마크를 사용하여, 다운스트림 성능이 음의 로그 가능도를 통해 일련의 변환을 거쳐 점진적으로 성능과 규모 간의 통계적 관계를 저하시키는 것을 보여줍니다. 그런 다음 이 저하를 일으키는 메커니즘을 밝힙니다: 다운스트림 메트릭은 정답 선택을 소수의 특정 오답 선택과 비교해야 하므로, 다운스트림 능력을 정확히 예측하려면 규모에 따라 정답 선택에 확률 질량이 어떻게 집중되는지뿐만 아니라 특정 오답 선택에 확률 질량이 어떻게 변동하는지도 예측해야 합니다. 우리는 계산 자원이 증가함에 따라 정답 선택에 대한 확률 질량이 오답 선택에 대한 확률 질량과 어떻게 공변하는지 실증적으로 연구하며, 오답 선택에 대한 확장 법칙이 달성 가능할 수 있음을 시사합니다. 우리의 연구는 또한 왜 사전 학습 확장 법칙이 다운스트림 능력보다 더 예측 가능한 것으로 간주되는지 설명하고, 최첨단 AI 모델의 확장-예측 가능한 평가를 확립하는 데 기여합니다.
English
Predictable behavior from scaling advanced AI systems is an extremely
desirable property. Although a well-established literature exists on how
pretraining performance scales, the literature on how particular downstream
capabilities scale is significantly muddier. In this work, we take a step back
and ask: why has predicting specific downstream capabilities with scale
remained elusive? While many factors are certainly responsible, we identify a
new factor that makes modeling scaling behavior on widely used multiple-choice
question-answering benchmarks challenging. Using five model families and twelve
well-established multiple-choice benchmarks, we show that downstream
performance is computed from negative log likelihoods via a sequence of
transformations that progressively degrade the statistical relationship between
performance and scale. We then reveal the mechanism causing this degradation:
downstream metrics require comparing the correct choice against a small number
of specific incorrect choices, meaning accurately predicting downstream
capabilities requires predicting not just how probability mass concentrates on
the correct choice with scale, but also how probability mass fluctuates on
specific incorrect choices with scale. We empirically study how probability
mass on the correct choice co-varies with probability mass on incorrect choices
with increasing compute, suggesting that scaling laws for incorrect choices
might be achievable. Our work also explains why pretraining scaling laws are
commonly regarded as more predictable than downstream capabilities and
contributes towards establishing scaling-predictable evaluations of frontier AI
models.Summary
AI-Generated Summary