ChatPaper.aiChatPaper

Nemotron-4 15B Technisch Rapport

Nemotron-4 15B Technical Report

February 26, 2024
Auteurs: Jupinder Parmar, Shrimai Prabhumoye, Joseph Jennings, Mostofa Patwary, Sandeep Subramanian, Dan Su, Chen Zhu, Deepak Narayanan, Aastha Jhunjhunwala, Ayush Dattagupta, Vibhu Jawa, Jiwei Liu, Ameya Mahabaleshwarkar, Osvald Nitski, Annika Brundyn, James Maki, Miguel Martinez, Jiaxuan You, John Kamalu, Patrick LeGresley, Denys Fridman, Jared Casper, Ashwath Aithal, Oleksii Kuchaiev, Mohammad Shoeybi, Jonathan Cohen, Bryan Catanzaro
cs.AI

Samenvatting

We introduceren Nemotron-4 15B, een groot meertalig taalmodel met 15 miljard parameters, getraind op 8 biljoen teksttokens. Nemotron-4 15B toont sterke prestaties bij evaluaties op Engels, meertalige en coderings taken: het overtreft alle bestaande open modellen van vergelijkbare grootte op 4 van de 7 downstream evaluatiegebieden en behaalt competitieve prestaties ten opzichte van de toonaangevende open modellen in de overige gebieden. Specifiek vertoont Nemotron-4 15B de beste meertalige capaciteiten van alle modellen van vergelijkbare grootte, waarbij het zelfs modellen overtreft die meer dan vier keer zo groot zijn en modellen die expliciet gespecialiseerd zijn in meertalige taken.
English
We introduce Nemotron-4 15B, a 15-billion-parameter large multilingual language model trained on 8 trillion text tokens. Nemotron-4 15B demonstrates strong performance when assessed on English, multilingual, and coding tasks: it outperforms all existing similarly-sized open models on 4 out of 7 downstream evaluation areas and achieves competitive performance to the leading open models in the remaining ones. Specifically, Nemotron-4 15B exhibits the best multilingual capabilities of all similarly-sized models, even outperforming models over four times larger and those explicitly specialized for multilingual tasks.
PDF464December 15, 2024