ChatPaper.aiChatPaper

Nemotron-4 15B Technischer Bericht

Nemotron-4 15B Technical Report

February 26, 2024
Autoren: Jupinder Parmar, Shrimai Prabhumoye, Joseph Jennings, Mostofa Patwary, Sandeep Subramanian, Dan Su, Chen Zhu, Deepak Narayanan, Aastha Jhunjhunwala, Ayush Dattagupta, Vibhu Jawa, Jiwei Liu, Ameya Mahabaleshwarkar, Osvald Nitski, Annika Brundyn, James Maki, Miguel Martinez, Jiaxuan You, John Kamalu, Patrick LeGresley, Denys Fridman, Jared Casper, Ashwath Aithal, Oleksii Kuchaiev, Mohammad Shoeybi, Jonathan Cohen, Bryan Catanzaro
cs.AI

Zusammenfassung

Wir stellen Nemotron-4 15B vor, ein großes multilinguales Sprachmodell mit 15 Milliarden Parametern, das auf 8 Billionen Text-Tokens trainiert wurde. Nemotron-4 15B zeigt eine starke Leistung bei der Bewertung von englischen, multilingualen und Programmieraufgaben: Es übertrifft alle bestehenden Open-Modelle ähnlicher Größe in 4 von 7 nachgelagerten Evaluierungsbereichen und erreicht in den verbleibenden Bereichen eine wettbewerbsfähige Leistung im Vergleich zu den führenden Open-Modellen. Insbesondere weist Nemotron-4 15B die besten multilingualen Fähigkeiten aller Modelle ähnlicher Größe auf und übertrifft sogar Modelle, die mehr als viermal so groß sind und explizit für multilinguale Aufgaben spezialisiert wurden.
English
We introduce Nemotron-4 15B, a 15-billion-parameter large multilingual language model trained on 8 trillion text tokens. Nemotron-4 15B demonstrates strong performance when assessed on English, multilingual, and coding tasks: it outperforms all existing similarly-sized open models on 4 out of 7 downstream evaluation areas and achieves competitive performance to the leading open models in the remaining ones. Specifically, Nemotron-4 15B exhibits the best multilingual capabilities of all similarly-sized models, even outperforming models over four times larger and those explicitly specialized for multilingual tasks.
PDF474December 15, 2024