Informe Técnico de Nemotron-4 15B
Nemotron-4 15B Technical Report
February 26, 2024
Autores: Jupinder Parmar, Shrimai Prabhumoye, Joseph Jennings, Mostofa Patwary, Sandeep Subramanian, Dan Su, Chen Zhu, Deepak Narayanan, Aastha Jhunjhunwala, Ayush Dattagupta, Vibhu Jawa, Jiwei Liu, Ameya Mahabaleshwarkar, Osvald Nitski, Annika Brundyn, James Maki, Miguel Martinez, Jiaxuan You, John Kamalu, Patrick LeGresley, Denys Fridman, Jared Casper, Ashwath Aithal, Oleksii Kuchaiev, Mohammad Shoeybi, Jonathan Cohen, Bryan Catanzaro
cs.AI
Resumen
Presentamos Nemotron-4 15B, un modelo lingüístico grande multilingüe de 15 mil millones de parámetros entrenado con 8 billones de tokens de texto. Nemotron-4 15B demuestra un rendimiento sólido al ser evaluado en tareas en inglés, multilingües y de programación: supera a todos los modelos abiertos de tamaño similar en 4 de las 7 áreas de evaluación descendente y logra un desempeño competitivo frente a los modelos abiertos líderes en las restantes. En particular, Nemotron-4 15B exhibe las mejores capacidades multilingües entre todos los modelos de tamaño similar, superando incluso a modelos más de cuatro veces más grandes y aquellos especializados explícitamente en tareas multilingües.
English
We introduce Nemotron-4 15B, a 15-billion-parameter large multilingual
language model trained on 8 trillion text tokens. Nemotron-4 15B demonstrates
strong performance when assessed on English, multilingual, and coding tasks: it
outperforms all existing similarly-sized open models on 4 out of 7 downstream
evaluation areas and achieves competitive performance to the leading open
models in the remaining ones. Specifically, Nemotron-4 15B exhibits the best
multilingual capabilities of all similarly-sized models, even outperforming
models over four times larger and those explicitly specialized for multilingual
tasks.