Jamba: Гибридная модель языка трансформера-мамбаJamba: A Hybrid Transformer-Mamba Language Model
Мы представляем Jamba, новую базовую модель большого языка, основанную на новаторской гибридной архитектуре Transformer-Mamba смеси экспертов (MoE). Конкретно, Jamba вставляет блоки слоев Transformer и Mamba, получая преимущества обеих семейств моделей. MoE добавляется в некоторые из этих слоев для увеличения емкости модели, при этом управление активным использованием параметров остаётся удобным. Эта гибкая архитектура позволяет конфигурации, ориентированные на ресурсы и цели. В конкретной конфигурации, которую мы реализовали, мы получили мощную модель, которая помещается на одном графическом процессоре объёмом 80 ГБ. Созданный в большом масштабе, Jamba обеспечивает высокую производительность и небольшой объём памяти по сравнению с обычными трансформерами, а также демонстрирует передовые результаты на стандартных бенчмарках языковых моделей и оценках длинного контекста. Замечательно, модель показывает сильные результаты для контекстной длины до 256 тыс. токенов. Мы изучаем различные архитектурные решения, такие как объединение слоев Transformer и Mamba, а также смешивание экспертов, и показываем, что некоторые из них критически важны для моделирования в большом масштабе. Мы также описываем несколько интересных свойств этих архитектур, которые были выявлены при обучении и оценке Jamba, и планируем выпустить контрольные точки из различных запусков абляции, чтобы поощрить дальнейшее изучение этой новой архитектуры. Мы предоставляем веса нашей реализации Jamba общедоступно на основе лицензии с открытым исходным кодом.