ChatPaper.aiChatPaper

Rapport Technique sur Nemotron-4 15B

Nemotron-4 15B Technical Report

February 26, 2024
Auteurs: Jupinder Parmar, Shrimai Prabhumoye, Joseph Jennings, Mostofa Patwary, Sandeep Subramanian, Dan Su, Chen Zhu, Deepak Narayanan, Aastha Jhunjhunwala, Ayush Dattagupta, Vibhu Jawa, Jiwei Liu, Ameya Mahabaleshwarkar, Osvald Nitski, Annika Brundyn, James Maki, Miguel Martinez, Jiaxuan You, John Kamalu, Patrick LeGresley, Denys Fridman, Jared Casper, Ashwath Aithal, Oleksii Kuchaiev, Mohammad Shoeybi, Jonathan Cohen, Bryan Catanzaro
cs.AI

Résumé

Nous présentons Nemotron-4 15B, un grand modèle de langage multilingue de 15 milliards de paramètres entraîné sur 8 000 milliards de tokens de texte. Nemotron-4 15B démontre des performances solides lorsqu'il est évalué sur des tâches en anglais, multilingues et de codage : il surpasse tous les modèles ouverts de taille similaire dans 4 des 7 domaines d'évaluation en aval et atteint des performances compétitives par rapport aux modèles ouverts leaders dans les autres. Plus précisément, Nemotron-4 15B présente les meilleures capacités multilingues parmi tous les modèles de taille similaire, surpassant même des modèles plus de quatre fois plus grands et ceux spécialement conçus pour les tâches multilingues.
English
We introduce Nemotron-4 15B, a 15-billion-parameter large multilingual language model trained on 8 trillion text tokens. Nemotron-4 15B demonstrates strong performance when assessed on English, multilingual, and coding tasks: it outperforms all existing similarly-sized open models on 4 out of 7 downstream evaluation areas and achieves competitive performance to the leading open models in the remaining ones. Specifically, Nemotron-4 15B exhibits the best multilingual capabilities of all similarly-sized models, even outperforming models over four times larger and those explicitly specialized for multilingual tasks.
PDF474December 15, 2024