ChatPaper.aiChatPaper

더 나은, 더 빠른 대형 언어 모델: 다중 토큰 예측을 통한 접근

Better & Faster Large Language Models via Multi-token Prediction

April 30, 2024
저자: Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, Gabriel Synnaeve
cs.AI

초록

GPT와 Llama와 같은 대규모 언어 모델은 다음 토큰 예측 손실을 통해 학습됩니다. 본 연구에서는 언어 모델이 한 번에 여러 개의 미래 토큰을 예측하도록 학습시키는 것이 샘플 효율성을 높인다는 점을 제안합니다. 구체적으로, 학습 코퍼스의 각 위치에서 모델이 공유된 모델 트렁크 위에서 작동하는 n개의 독립적인 출력 헤드를 사용하여 다음 n개의 토큰을 예측하도록 요구합니다. 다중 토큰 예측을 보조 학습 작업으로 간주하여, 코드 및 자연어 모델 모두에 대해 학습 시간의 추가 부담 없이 향상된 다운스트림 능력을 측정했습니다. 이 방법은 모델 크기가 커질수록 점점 더 유용해지며, 여러 에포크 동안 학습할 때도 그 매력을 유지합니다. 특히 코딩과 같은 생성적 벤치마크에서 이점이 두드러지며, 우리의 모델은 강력한 베이스라인보다 몇 퍼센트 포인트 더 높은 성능을 보입니다. 13B 파라미터 모델은 HumanEval에서 12%, MBPP에서 17% 더 많은 문제를 해결했습니다. 소규모 알고리즘 작업에 대한 실험은 다중 토큰 예측이 귀납 헤드와 알고리즘적 추론 능력의 발달에 유리하다는 것을 보여줍니다. 추가적인 이점으로, 4-토큰 예측으로 학습된 모델은 큰 배치 크기에서도 추론 속도가 최대 3배 빨라집니다.
English
Large language models such as GPT and Llama are trained with a next-token prediction loss. In this work, we suggest that training language models to predict multiple future tokens at once results in higher sample efficiency. More specifically, at each position in the training corpus, we ask the model to predict the following n tokens using n independent output heads, operating on top of a shared model trunk. Considering multi-token prediction as an auxiliary training task, we measure improved downstream capabilities with no overhead in training time for both code and natural language models. The method is increasingly useful for larger model sizes, and keeps its appeal when training for multiple epochs. Gains are especially pronounced on generative benchmarks like coding, where our models consistently outperform strong baselines by several percentage points. Our 13B parameter models solves 12 % more problems on HumanEval and 17 % more on MBPP than comparable next-token models. Experiments on small algorithmic tasks demonstrate that multi-token prediction is favorable for the development of induction heads and algorithmic reasoning capabilities. As an additional benefit, models trained with 4-token prediction are up to 3 times faster at inference, even with large batch sizes.

Summary

AI-Generated Summary

PDF783December 8, 2024