ChatPaper.aiChatPaper

Nemotron-4 15B 기술 보고서

Nemotron-4 15B Technical Report

February 26, 2024
저자: Jupinder Parmar, Shrimai Prabhumoye, Joseph Jennings, Mostofa Patwary, Sandeep Subramanian, Dan Su, Chen Zhu, Deepak Narayanan, Aastha Jhunjhunwala, Ayush Dattagupta, Vibhu Jawa, Jiwei Liu, Ameya Mahabaleshwarkar, Osvald Nitski, Annika Brundyn, James Maki, Miguel Martinez, Jiaxuan You, John Kamalu, Patrick LeGresley, Denys Fridman, Jared Casper, Ashwath Aithal, Oleksii Kuchaiev, Mohammad Shoeybi, Jonathan Cohen, Bryan Catanzaro
cs.AI

초록

우리는 8조 개의 텍스트 토큰으로 학습된 150억 개의 파라미터를 가진 대규모 다국어 언어 모델인 Nemotron-4 15B를 소개합니다. Nemotron-4 15B는 영어, 다국어 및 코딩 작업에서 평가할 때 강력한 성능을 보여주며, 7개의 하위 평가 영역 중 4개에서 동일한 규모의 기존 오픈 모델을 모두 능가하고 나머지 영역에서도 선두 오픈 모델과 경쟁력 있는 성능을 달성합니다. 특히, Nemotron-4 15B는 동일한 규모의 모든 모델 중에서 가장 뛰어난 다국어 능력을 보여주며, 심지어 크기가 네 배 이상 큰 모델이나 다국어 작업에 특화된 모델들까지 능가합니다.
English
We introduce Nemotron-4 15B, a 15-billion-parameter large multilingual language model trained on 8 trillion text tokens. Nemotron-4 15B demonstrates strong performance when assessed on English, multilingual, and coding tasks: it outperforms all existing similarly-sized open models on 4 out of 7 downstream evaluation areas and achieves competitive performance to the leading open models in the remaining ones. Specifically, Nemotron-4 15B exhibits the best multilingual capabilities of all similarly-sized models, even outperforming models over four times larger and those explicitly specialized for multilingual tasks.
PDF474December 15, 2024