ChatPaper.aiChatPaper

왜 스케일링에 따른 최첨단 AI 모델의 다운스트림 능력 예측은 여전히 어려운가?

Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?

June 6, 2024
저자: Rylan Schaeffer, Hailey Schoelkopf, Brando Miranda, Gabriel Mukobi, Varun Madan, Adam Ibrahim, Herbie Bradley, Stella Biderman, Sanmi Koyejo
cs.AI

초록

고급 AI 시스템의 확장에서 예측 가능한 행동은 매우 바람직한 특성입니다. 사전 학습 성능이 어떻게 확장되는지에 대한 문헌은 잘 정립되어 있지만, 특정 다운스트림 능력이 어떻게 확장되는지에 대한 문헌은 상당히 불분명합니다. 본 연구에서는 한 걸음 물러나 질문합니다: 왜 규모에 따른 특정 다운스트림 능력 예측은 여전히 어려운가? 많은 요인이 분명히 있지만, 우리는 널리 사용되는 객관식 질문-응답 벤치마크에서 확장 행동을 모델링하기 어렵게 만드는 새로운 요인을 식별합니다. 다섯 가지 모델 패밀리와 열두 개의 잘 정립된 객관식 벤치마크를 사용하여, 다운스트림 성능이 음의 로그 가능도를 통해 일련의 변환을 거쳐 점진적으로 성능과 규모 간의 통계적 관계를 저하시키는 것을 보여줍니다. 그런 다음 이 저하를 일으키는 메커니즘을 밝힙니다: 다운스트림 메트릭은 정답 선택을 소수의 특정 오답 선택과 비교해야 하므로, 다운스트림 능력을 정확히 예측하려면 규모에 따라 정답 선택에 확률 질량이 어떻게 집중되는지뿐만 아니라 특정 오답 선택에 확률 질량이 어떻게 변동하는지도 예측해야 합니다. 우리는 계산 자원이 증가함에 따라 정답 선택에 대한 확률 질량이 오답 선택에 대한 확률 질량과 어떻게 공변하는지 실증적으로 연구하며, 오답 선택에 대한 확장 법칙이 달성 가능할 수 있음을 시사합니다. 우리의 연구는 또한 왜 사전 학습 확장 법칙이 다운스트림 능력보다 더 예측 가능한 것으로 간주되는지 설명하고, 최첨단 AI 모델의 확장-예측 가능한 평가를 확립하는 데 기여합니다.
English
Predictable behavior from scaling advanced AI systems is an extremely desirable property. Although a well-established literature exists on how pretraining performance scales, the literature on how particular downstream capabilities scale is significantly muddier. In this work, we take a step back and ask: why has predicting specific downstream capabilities with scale remained elusive? While many factors are certainly responsible, we identify a new factor that makes modeling scaling behavior on widely used multiple-choice question-answering benchmarks challenging. Using five model families and twelve well-established multiple-choice benchmarks, we show that downstream performance is computed from negative log likelihoods via a sequence of transformations that progressively degrade the statistical relationship between performance and scale. We then reveal the mechanism causing this degradation: downstream metrics require comparing the correct choice against a small number of specific incorrect choices, meaning accurately predicting downstream capabilities requires predicting not just how probability mass concentrates on the correct choice with scale, but also how probability mass fluctuates on specific incorrect choices with scale. We empirically study how probability mass on the correct choice co-varies with probability mass on incorrect choices with increasing compute, suggesting that scaling laws for incorrect choices might be achievable. Our work also explains why pretraining scaling laws are commonly regarded as more predictable than downstream capabilities and contributes towards establishing scaling-predictable evaluations of frontier AI models.

Summary

AI-Generated Summary

PDF90December 8, 2024