ChatPaper.aiChatPaper

Relatório Técnico do Nemotron-4 15B

Nemotron-4 15B Technical Report

February 26, 2024
Autores: Jupinder Parmar, Shrimai Prabhumoye, Joseph Jennings, Mostofa Patwary, Sandeep Subramanian, Dan Su, Chen Zhu, Deepak Narayanan, Aastha Jhunjhunwala, Ayush Dattagupta, Vibhu Jawa, Jiwei Liu, Ameya Mahabaleshwarkar, Osvald Nitski, Annika Brundyn, James Maki, Miguel Martinez, Jiaxuan You, John Kamalu, Patrick LeGresley, Denys Fridman, Jared Casper, Ashwath Aithal, Oleksii Kuchaiev, Mohammad Shoeybi, Jonathan Cohen, Bryan Catanzaro
cs.AI

Resumo

Apresentamos o Nemotron-4 15B, um grande modelo de linguagem multilíngue com 15 bilhões de parâmetros, treinado em 8 trilhões de tokens de texto. O Nemotron-4 15B demonstra um desempenho robusto quando avaliado em tarefas de inglês, multilíngues e de codificação: ele supera todos os modelos abertos de tamanho similar em 4 das 7 áreas de avaliação downstream e alcança desempenho competitivo em relação aos principais modelos abertos nas demais. Especificamente, o Nemotron-4 15B exibe as melhores capacidades multilíngues entre todos os modelos de tamanho similar, superando até mesmo modelos com mais de quatro vezes o seu tamanho e aqueles explicitamente especializados em tarefas multilíngues.
English
We introduce Nemotron-4 15B, a 15-billion-parameter large multilingual language model trained on 8 trillion text tokens. Nemotron-4 15B demonstrates strong performance when assessed on English, multilingual, and coding tasks: it outperforms all existing similarly-sized open models on 4 out of 7 downstream evaluation areas and achieves competitive performance to the leading open models in the remaining ones. Specifically, Nemotron-4 15B exhibits the best multilingual capabilities of all similarly-sized models, even outperforming models over four times larger and those explicitly specialized for multilingual tasks.
PDF464December 15, 2024