La serie MiniMax-M2: Activaciones miniatura que liberan la máxima inteligencia del mundo real

Resumen

Presentamos la serie MiniMax-M2, una familia de modelos de lenguaje basados en Mezcla de Expertos, construida en torno al principio de que las activaciones reducidas pueden liberar una inteligencia máxima en el mundo real. El modelo insignia M2 cuenta con 229,9 mil millones de parámetros totales, de los cuales solo se activan 9,8 mil millones por token. Diseñada de extremo a extremo para un despliegue orientado a agentes, la serie M2 se sustenta en tres componentes: (i) tuberías de datos impulsadas por agentes que generan trayectorias verificables a gran escala en codificación agentiva y coworking agentivo, cada una fundamentada en un espacio de trabajo ejecutable y una recompensa alineada con artefactos; (ii) Forge, un sistema de RL escalable nativo para agentes que se adapta a trayectorias de agentes de largo horizonte, acompañado de planificación FIFO con ventanas, fusión de árboles de prefijos, optimización de inferencia y un desacoplamiento limpio entre entrenamiento, inferencia y agente que soporta tanto agentes de caja blanca como de caja negra; (iii) el punto de control más reciente, M2.7, da un paso temprano hacia la autoevolución, depurando de forma autónoma ejecuciones de entrenamiento y modificando su propio andamio. Desde M2 hasta M2.7, esta combinación traduce una huella de activaciones reducidas en un rendimiento de primer nivel en codificación agentiva, búsqueda profunda, tareas de oficina y puntos de referencia de razonamiento.

English

We introduce the MiniMax-M2 series, a family of Mixture-of-Experts language models built around the principle that mini activations can unleash maximum real-world intelligence. The flagship M2 contains 229.9B total parameters with only 9.8B activated per token. Designed end-to-end for agentic deployment, the M2 series rests on three components: (i) agent-driven data pipelines producing large-scale, verifiable trajectories across agentic coding and agentic cowork, each grounded in an executable workspace and an artifact-aligned reward; (ii) Forge, a scalable agent-native RL system that adapts to long-horizon agent trajectories, paired with windowed-FIFO scheduling, prefix-tree merging, inference optimization, and a clean training-inference-agent decoupling that supports both white-box and black-box agents; (iii) the latest M2.7 checkpoint takes an early step toward self-evolution -- autonomously debugging training runs and modifying its own scaffold. Across M2 through M2.7, this combination translates a mini-activation footprint into frontier-tier performance on agentic coding, deep search, office-task, and reasoning benchmarks.