Jamba-1.5: 규모 확장형 하이브리드 트랜스포머-맘바 모델
Jamba-1.5: Hybrid Transformer-Mamba Models at Scale
August 22, 2024
저자: Jamba Team, Barak Lenz, Alan Arazi, Amir Bergman, Avshalom Manevich, Barak Peleg, Ben Aviram, Chen Almagor, Clara Fridman, Dan Padnos, Daniel Gissin, Daniel Jannai, Dor Muhlgay, Dor Zimberg, Edden M Gerber, Elad Dolev, Eran Krakovsky, Erez Safahi, Erez Schwartz, Gal Cohen, Gal Shachaf, Haim Rozenblum, Hofit Bata, Ido Blass, Inbal Magar, Itay Dalmedigos, Jhonathan Osin, Julie Fadlon, Maria Rozman, Matan Danos, Michael Gokhman, Mor Zusman, Naama Gidron, Nir Ratner, Noam Gat, Noam Rozen, Oded Fried, Ohad Leshno, Omer Antverg, Omri Abend, Opher Lieber, Or Dagan, Orit Cohavi, Raz Alon, Ro'i Belson, Roi Cohen, Rom Gilad, Roman Glozman, Shahar Lev, Shaked Meirom, Tal Delbari, Tal Ness, Tomer Asida, Tom Ben Gal, Tom Braude, Uriya Pumerantz, Yehoshua Cohen, Yonatan Belinkov, Yuval Globerson, Yuval Peleg Levy, Yoav Shoham
cs.AI
초록
우리는 Jamba 아키텍처를 기반으로 한 새로운 명령어 튜닝 대형 언어 모델인 Jamba-1.5를 제안합니다. Jamba는 하이브리드 Transformer-Mamba 전문가 구조로, Transformer 모델과 동일하거나 더 나은 품질을 유지하면서 다양한 문맥 길이에서 높은 처리량과 낮은 메모리 사용량을 제공합니다. 우리는 Jamba-1.5-Large(94B 활성 매개변수)와 Jamba-1.5-Mini(12B 활성 매개변수) 두 가지 모델 크기를 공개합니다. 두 모델은 대화 및 명령어 따르기 능력을 위해 세밀하게 조정되었으며, 256K 토큰의 효과적인 문맥 길이를 갖추었으며, 이는 오픈 가중치 모델 중 가장 큽니다. 비용 효율적인 추론을 지원하기 위해 우리는 ExpertsInt8을 소개합니다. 이는 Jamba-1.5-Large를 8개의 80GB GPU가 장착된 기계에 256K 토큰 문맥을 처리할 때 품질 손실 없이 맞출 수 있는 새로운 양자화 기술입니다. 학술 및 챗봇 벤치마크를 통해 평가한 결과, Jamba-1.5 모델은 우수한 결과를 달성하며, 긴 문맥 벤치마크에서 다른 오픈 가중치 모델을 능가하는 높은 처리량을 제공합니다. 두 크기의 모델 가중치는 Jamba 오픈 모델 라이선스에 따라 공개되며, ExpertsInt8은 오픈 소스로 공개됩니다.
English
We present Jamba-1.5, new instruction-tuned large language models based on
our Jamba architecture. Jamba is a hybrid Transformer-Mamba mixture of experts
architecture, providing high throughput and low memory usage across context
lengths, while retaining the same or better quality as Transformer models. We
release two model sizes: Jamba-1.5-Large, with 94B active parameters, and
Jamba-1.5-Mini, with 12B active parameters. Both models are fine-tuned for a
variety of conversational and instruction-following capabilties, and have an
effective context length of 256K tokens, the largest amongst open-weight
models. To support cost-effective inference, we introduce ExpertsInt8, a novel
quantization technique that allows fitting Jamba-1.5-Large on a machine with 8
80GB GPUs when processing 256K-token contexts without loss of quality. When
evaluated on a battery of academic and chatbot benchmarks, Jamba-1.5 models
achieve excellent results while providing high throughput and outperforming
other open-weight models on long-context benchmarks. The model weights for both
sizes are publicly available under the Jamba Open Model License and we release
ExpertsInt8 as open source.Summary
AI-Generated Summary