MiniMax-01: Escalando Modelos Base con Atención RelámpagoMiniMax-01: Scaling Foundation Models with Lightning Attention
Presentamos la serie MiniMax-01, que incluye MiniMax-Text-01 y MiniMax-VL-01, comparables a modelos de primera categoría y con capacidades superiores en el procesamiento de contextos más largos. La clave radica en la atención relámpago y su escalabilidad eficiente. Para maximizar la capacidad computacional, la integramos con una Mezcla de Expertos (MoE), creando un modelo con 32 expertos y 456 mil millones de parámetros en total, de los cuales 45.9 mil millones se activan para cada token. Desarrollamos una estrategia paralela optimizada y técnicas de superposición de cálculo-comunicación altamente eficientes para MoE y atención relámpago. Este enfoque nos permite llevar a cabo un entrenamiento e inferencia eficientes en modelos con cientos de miles de millones de parámetros a lo largo de contextos que abarcan millones de tokens. La ventana de contexto de MiniMax-Text-01 puede alcanzar hasta 1 millón de tokens durante el entrenamiento y extrapolarse a 4 millones de tokens durante la inferencia a un costo asequible. Nuestro modelo visión-lenguaje, MiniMax-VL-01, se construye mediante un entrenamiento continuo con 512 mil millones de tokens visión-lenguaje. Experimentos en benchmarks estándar y propios muestran que nuestros modelos igualan el rendimiento de modelos de última generación como GPT-4o y Claude-3.5-Sonnet, ofreciendo una ventana de contexto 20-32 veces más larga. Publicamos MiniMax-01 en https://github.com/MiniMax-AI.