MiniMax-01: Dimensionamento de Modelos de Fundação com Atenção RelâmpagoMiniMax-01: Scaling Foundation Models with Lightning Attention
Apresentamos a série MiniMax-01, que inclui o MiniMax-Text-01 e o MiniMax-VL-01, comparáveis aos modelos de primeira linha, oferecendo capacidades superiores no processamento de contextos mais longos. O cerne reside na atenção relâmpago e sua escalabilidade eficiente. Para maximizar a capacidade computacional, integramos o Modelo de Especialistas (MoE), criando um modelo com 32 especialistas e 456 bilhões de parâmetros totais, dos quais 45,9 bilhões são ativados para cada token. Desenvolvemos uma estratégia paralela otimizada e técnicas de sobreposição de computação-comunicação altamente eficientes para MoE e atenção relâmpago. Essa abordagem nos permite realizar treinamento e inferência eficientes em modelos com centenas de bilhões de parâmetros em contextos que abrangem milhões de tokens. A janela de contexto do MiniMax-Text-01 pode atingir até 1 milhão de tokens durante o treinamento e se estender para 4 milhões de tokens durante a inferência a um custo acessível. Nosso modelo visão-linguagem, MiniMax-VL-01, é construído por meio de treinamento contínuo com 512 bilhões de tokens visão-linguagem. Experimentos em benchmarks padrão e internos mostram que nossos modelos igualam o desempenho de modelos de última geração como GPT-4o e Claude-3.5-Sonnet, oferecendo uma janela de contexto 20-32 vezes mais longa. Lançamos publicamente o MiniMax-01 em https://github.com/MiniMax-AI.