МиниМакс-01: Масштабирование базовых моделей с механизмом молниеносного вниманияMiniMax-01: Scaling Foundation Models with Lightning Attention
Мы представляем серию MiniMax-01, включающую в себя MiniMax-Text-01 и MiniMax-VL-01, которые сравнимы с моделями верхнего уровня, предлагая при этом более высокие возможности обработки более длинных контекстов. Основа заключается в молниеносном внимании и его эффективном масштабировании. Для максимизации вычислительной мощности мы интегрируем его с Моделью Экспертов (MoE), создавая модель с 32 экспертами и общим количеством параметров в 456 миллиардов, из которых 45,9 миллиарда активируются для каждого токена. Мы разработали оптимизированную параллельную стратегию и высокоэффективные техники перекрытия вычислений и коммуникаций для MoE и молниеносного внимания. Этот подход позволяет нам проводить эффективное обучение и вывод на моделях с сотнями миллиардов параметров в контекстах, охватывающих миллионы токенов. Окно контекста MiniMax-Text-01 может достигать до 1 миллиона токенов во время обучения и экстраполироваться до 4 миллионов токенов во время вывода по доступной цене. Наша модель видео-языка, MiniMax-VL-01, создана путем продолжения обучения с 512 миллиардами видео-языковых токенов. Эксперименты как на стандартных, так и на внутренних бенчмарках показывают, что наши модели соответствуют производительности передовых моделей, таких как GPT-4o и Claude-3.5-Sonnet, предлагая при этом окно контекста в 20-32 раза длиннее. Мы публично выпускаем MiniMax-01 на https://github.com/MiniMax-AI.