De MiniMax-M2-serie: Mini-activaties ontketenen maximale intelligentie in de echte wereld

Samenvatting

We presenteren de MiniMax-M2-serie, een familie van Mixture-of-Experts-taalmodellen gebouwd rond het principe dat mini-activaties maximale intelligentie in de echte wereld kunnen ontketenen. Het vlaggenschip M2 bevat in totaal 229,9 miljard parameters met slechts 9,8 miljard geactiveerd per token. Ontworpen end-to-end voor agentische inzet, rust de M2-serie op drie componenten: (i) agent-gestuurde datapijplijnen die grootschalige, verifieerbare trajecten produceren voor zowel agentisch programmeren als agentisch samenwerken, elk gebaseerd op een uitvoerbare werkruimte en een aan artefacten gekoppelde beloning; (ii) Forge, een schaalbaar agent-native RL-systeem dat zich aanpast aan langetermijntrajecten van agents, gekoppeld aan windowed-FIFO-scheduling, prefix-tree merging, inferentieoptimalisatie en een schone training-inferentie-agent-ontkoppeling die zowel white-box- als black-box-agents ondersteunt; (iii) de nieuwste M2.7-checkpoint zet een vroege stap richting zelf-evolutie – het autonoom debuggen van trainingsruns en het aanpassen van zijn eigen scaffold. Van M2 tot en met M2.7 vertaalt deze combinatie een kleine activatievoetafdruk naar prestaties op frontiervlak voor benchmarks op het gebied van agentisch programmeren, diep zoeken, kantoortaken en redeneren.

English

We introduce the MiniMax-M2 series, a family of Mixture-of-Experts language models built around the principle that mini activations can unleash maximum real-world intelligence. The flagship M2 contains 229.9B total parameters with only 9.8B activated per token. Designed end-to-end for agentic deployment, the M2 series rests on three components: (i) agent-driven data pipelines producing large-scale, verifiable trajectories across agentic coding and agentic cowork, each grounded in an executable workspace and an artifact-aligned reward; (ii) Forge, a scalable agent-native RL system that adapts to long-horizon agent trajectories, paired with windowed-FIFO scheduling, prefix-tree merging, inference optimization, and a clean training-inference-agent decoupling that supports both white-box and black-box agents; (iii) the latest M2.7 checkpoint takes an early step toward self-evolution -- autonomously debugging training runs and modifying its own scaffold. Across M2 through M2.7, this combination translates a mini-activation footprint into frontier-tier performance on agentic coding, deep search, office-task, and reasoning benchmarks.