ChatPaper.aiChatPaper

Jamba-1.5: Гибридные модели трансформера-Mamba масштаба

Jamba-1.5: Hybrid Transformer-Mamba Models at Scale

August 22, 2024
Авторы: Jamba Team, Barak Lenz, Alan Arazi, Amir Bergman, Avshalom Manevich, Barak Peleg, Ben Aviram, Chen Almagor, Clara Fridman, Dan Padnos, Daniel Gissin, Daniel Jannai, Dor Muhlgay, Dor Zimberg, Edden M Gerber, Elad Dolev, Eran Krakovsky, Erez Safahi, Erez Schwartz, Gal Cohen, Gal Shachaf, Haim Rozenblum, Hofit Bata, Ido Blass, Inbal Magar, Itay Dalmedigos, Jhonathan Osin, Julie Fadlon, Maria Rozman, Matan Danos, Michael Gokhman, Mor Zusman, Naama Gidron, Nir Ratner, Noam Gat, Noam Rozen, Oded Fried, Ohad Leshno, Omer Antverg, Omri Abend, Opher Lieber, Or Dagan, Orit Cohavi, Raz Alon, Ro'i Belson, Roi Cohen, Rom Gilad, Roman Glozman, Shahar Lev, Shaked Meirom, Tal Delbari, Tal Ness, Tomer Asida, Tom Ben Gal, Tom Braude, Uriya Pumerantz, Yehoshua Cohen, Yonatan Belinkov, Yuval Globerson, Yuval Peleg Levy, Yoav Shoham
cs.AI

Аннотация

Мы представляем Jamba-1.5, новые модели языков на основе инструкций, оптимизированные под нашу архитектуру Jamba. Jamba представляет собой гибридную архитектуру экспертов Transformer-Mamba, обеспечивающую высокую пропускную способность и низкое использование памяти при различных длинах контекста, сохраняя при этом такое же или даже лучшее качество по сравнению с моделями Transformer. Мы выпустили два размера моделей: Jamba-1.5-Large с 94 миллиардами активных параметров и Jamba-1.5-Mini с 12 миллиардами активных параметров. Обе модели были донастроены для различных разговорных и инструкционных возможностей и имеют эффективную длину контекста в 256 тысяч токенов, что является самым большим среди моделей с открытым весом. Для поддержки экономичного вывода мы представляем ExpertsInt8, новую технику квантования, позволяющую разместить модель Jamba-1.5-Large на машине с 8 GPU объемом 80 ГБ при обработке контекстов из 256 тысяч токенов без потери качества. При оценке на ряде академических и бенчмарков чат-ботов модели Jamba-1.5 показывают отличные результаты, обеспечивая высокую пропускную способность и превосходя другие модели с открытым весом на бенчмарках с длинным контекстом. Веса моделей обоих размеров доступны публично в соответствии с лицензией Jamba Open Model, а ExpertsInt8 мы выпускаем как открытый исходный код.
English
We present Jamba-1.5, new instruction-tuned large language models based on our Jamba architecture. Jamba is a hybrid Transformer-Mamba mixture of experts architecture, providing high throughput and low memory usage across context lengths, while retaining the same or better quality as Transformer models. We release two model sizes: Jamba-1.5-Large, with 94B active parameters, and Jamba-1.5-Mini, with 12B active parameters. Both models are fine-tuned for a variety of conversational and instruction-following capabilties, and have an effective context length of 256K tokens, the largest amongst open-weight models. To support cost-effective inference, we introduce ExpertsInt8, a novel quantization technique that allows fitting Jamba-1.5-Large on a machine with 8 80GB GPUs when processing 256K-token contexts without loss of quality. When evaluated on a battery of academic and chatbot benchmarks, Jamba-1.5 models achieve excellent results while providing high throughput and outperforming other open-weight models on long-context benchmarks. The model weights for both sizes are publicly available under the Jamba Open Model License and we release ExpertsInt8 as open source.

Summary

AI-Generated Summary

PDF343November 16, 2024