라마-네모트론: 효율적인 추론 모델
Llama-Nemotron: Efficient Reasoning Models
May 2, 2025
저자: Akhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, Zach Moshe, Tomer Ronen, Najeeb Nabwani, Ido Shahaf, Oren Tropp, Ehud Karpas, Ran Zilberstein, Jiaqi Zeng, Soumye Singhal, Alexander Bukharin, Yian Zhang, Tugrul Konuk, Gerald Shen, Ameya Sunil Mahabaleshwarkar, Bilal Kartal, Yoshi Suhara, Olivier Delalleau, Zijia Chen, Zhilin Wang, David Mosallanezhad, Adi Renduchintala, Haifeng Qian, Dima Rekesh, Fei Jia, Somshubra Majumdar, Vahid Noroozi, Wasi Uddin Ahmad, Sean Narenthiran, Aleksander Ficek, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Igor Gitman, Ivan Moshkov, Wei Du, Shubham Toshniwal, George Armstrong, Branislav Kisacanin, Matvei Novikov, Daria Gitman, Evelina Bakhturina, Jane Polak Scowcroft, John Kamalu, Dan Su, Kezhi Kong, Markus Kliegl, Rabeeh Karimi, Ying Lin, Sanjeev Satheesh, Jupinder Parmar, Pritam Gundecha, Brandon Norick, Joseph Jennings, Shrimai Prabhumoye, Syeda Nahida Akter, Mostofa Patwary, Abhinav Khattar, Deepak Narayanan, Roger Waleffe, Jimmy Zhang, Bor-Yiing Su, Guyue Huang, Terry Kong, Parth Chadha, Sahil Jain, Christine Harvey, Elad Segal, Jining Huang, Sergey Kashirsky, Robert McQueen, Izzy Putterman, George Lam, Arun Venkatesan, Sherry Wu, Vinh Nguyen, Manoj Kilaru, Andrew Wang, Anna Warno, Abhilash Somasamudramath, Sandip Bhaskar, Maka Dong, Nave Assaf, Shahar Mor, Omer Ullman Argov, Scot Junkin, Oleksandr Romanenko, Pedro Larroy, Monika Katariya, Marco Rovinelli, Viji Balas, Nicholas Edelman, Anahita Bhiwandiwalla, Muthu Subramaniam, Smita Ithape, Karthik Ramamoorthy, Yuting Wu, Suguna Varshini Velury, Omri Almog, Joyjit Daw, Denys Fridman, Erick Galinkin, Michael Evans, Katherine Luna, Leon Derczynski, Nikki Pope, Eileen Long, Seth Schneider, Guillermo Siman, Tomasz Grzegorzek, Pablo Ribalta, Monika Katariya, Joey Conway, Trisha Saar, Ann Guan, Krzysztof Pawelec, Shyamala Prayaga, Oleksii Kuchaiev, Boris Ginsburg, Oluwatobi Olabiyi, Kari Briski, Jonathan Cohen, Bryan Catanzaro, Jonah Alben, Yonatan Geifman, Eric Chung
cs.AI
초록
우리는 Llama-Nemotron 시리즈 모델을 소개합니다. 이는 우수한 추론 능력, 추론 효율성, 그리고 기업 사용을 위한 개방형 라이선스를 제공하는 이종 추론 모델의 오픈 패밀리입니다. 이 패밀리는 Nano(8B), Super(49B), Ultra(253B) 세 가지 크기로 제공되며, DeepSeek-R1과 같은 최첨단 추론 모델과 경쟁력 있는 성능을 보이면서도 더 우수한 추론 처리량과 메모리 효율성을 제공합니다. 본 보고서에서는 이러한 모델의 학습 절차에 대해 논의합니다. 이 절차는 Llama 3 모델의 신경망 구조 탐색을 통해 가속화된 추론, 지식 증류, 그리고 지속적인 사전 학습을 포함하며, 이어서 두 가지 주요 부분으로 구성된 추론 중심의 사후 학습 단계를 거칩니다: 지도 미세 조정과 대규모 강화 학습. Llama-Nemotron 모델은 동적 추론 토글을 지원하는 최초의 오픈소스 모델로, 사용자가 추론 중에 표준 채팅 모드와 추론 모드 간 전환을 가능하게 합니다. 개방형 연구를 더욱 지원하고 모델 개발을 용이하게 하기 위해, 우리는 다음과 같은 리소스를 제공합니다: 1. Llama-Nemotron 추론 모델(LN-Nano, LN-Super, LN-Ultra)을 상업적으로 허용 가능한 NVIDIA Open Model License Agreement 하에 공개합니다. 2. 완전한 사후 학습 데이터셋(Llama-Nemotron-Post-Training-Dataset)을 공개합니다. 3. 학습 코드베이스(NeMo, NeMo-Aligner, Megatron-LM)도 공개합니다.
English
We introduce the Llama-Nemotron series of models, an open family of
heterogeneous reasoning models that deliver exceptional reasoning capabilities,
inference efficiency, and an open license for enterprise use. The family comes
in three sizes -- Nano (8B), Super (49B), and Ultra (253B) -- and performs
competitively with state-of-the-art reasoning models such as DeepSeek-R1 while
offering superior inference throughput and memory efficiency. In this report,
we discuss the training procedure for these models, which entails using neural
architecture search from Llama 3 models for accelerated inference, knowledge
distillation, and continued pretraining, followed by a reasoning-focused
post-training stage consisting of two main parts: supervised fine-tuning and
large scale reinforcement learning. Llama-Nemotron models are the first
open-source models to support a dynamic reasoning toggle, allowing users to
switch between standard chat and reasoning modes during inference. To further
support open research and facilitate model development, we provide the
following resources: 1. We release the Llama-Nemotron reasoning models --
LN-Nano, LN-Super, and LN-Ultra -- under the commercially permissive NVIDIA
Open Model License Agreement. 2. We release the complete post-training dataset:
Llama-Nemotron-Post-Training-Dataset. 3. We also release our training
codebases: NeMo, NeMo-Aligner, and Megatron-LM.Summary
AI-Generated Summary