Nemotron-4 15B 技術レポート
Nemotron-4 15B Technical Report
February 26, 2024
著者: Jupinder Parmar, Shrimai Prabhumoye, Joseph Jennings, Mostofa Patwary, Sandeep Subramanian, Dan Su, Chen Zhu, Deepak Narayanan, Aastha Jhunjhunwala, Ayush Dattagupta, Vibhu Jawa, Jiwei Liu, Ameya Mahabaleshwarkar, Osvald Nitski, Annika Brundyn, James Maki, Miguel Martinez, Jiaxuan You, John Kamalu, Patrick LeGresley, Denys Fridman, Jared Casper, Ashwath Aithal, Oleksii Kuchaiev, Mohammad Shoeybi, Jonathan Cohen, Bryan Catanzaro
cs.AI
要旨
私たちは、8兆のテキストトークンでトレーニングされた150億パラメータの大規模多言語言語モデル、Nemotron-4 15Bを紹介します。Nemotron-4 15Bは、英語、多言語、およびコーディングタスクにおいて優れたパフォーマンスを示します。7つの下流評価領域のうち4つで、同規模の既存のオープンモデルを上回り、残りの領域でも主要なオープンモデルと競争力のある性能を達成しています。特に、Nemotron-4 15Bは、同規模のモデルの中で最高の多言語能力を示し、4倍以上大きなモデルや、多言語タスクに特化したモデルさえも凌駕しています。
English
We introduce Nemotron-4 15B, a 15-billion-parameter large multilingual
language model trained on 8 trillion text tokens. Nemotron-4 15B demonstrates
strong performance when assessed on English, multilingual, and coding tasks: it
outperforms all existing similarly-sized open models on 4 out of 7 downstream
evaluation areas and achieves competitive performance to the leading open
models in the remaining ones. Specifically, Nemotron-4 15B exhibits the best
multilingual capabilities of all similarly-sized models, even outperforming
models over four times larger and those explicitly specialized for multilingual
tasks.