MiniMax-01: Skalierung von Grundlagenmodellen mit Blitz-AufmerksamkeitMiniMax-01: Scaling Foundation Models with Lightning Attention
Wir stellen die MiniMax-01-Serie vor, bestehend aus MiniMax-Text-01 und MiniMax-VL-01, die mit Spitzenmodellen vergleichbar sind und gleichzeitig über überlegene Fähigkeiten bei der Verarbeitung längerer Kontexte verfügen. Der Kern liegt in der Blitz-Aufmerksamkeit und ihrer effizienten Skalierung. Um die Rechenkapazität zu maximieren, integrieren wir sie mit dem Mixture of Experts (MoE), um ein Modell mit 32 Experten und insgesamt 456 Milliarden Parametern zu schaffen, von denen 45,9 Milliarden für jedes Token aktiviert sind. Wir entwickeln eine optimierte parallele Strategie und hoch effiziente Berechnungs-Kommunikations-Überlappungstechniken für MoE und Blitz-Aufmerksamkeit. Dieser Ansatz ermöglicht es uns, effizientes Training und Inferenz auf Modellen mit Hunderten von Milliarden Parametern über Kontexte mit Millionen von Tokens durchzuführen. Das Kontextfenster von MiniMax-Text-01 kann während des Trainings bis zu 1 Million Tokens erreichen und sich während der Inferenz auf 4 Millionen Tokens zu einem erschwinglichen Preis extrapolieren. Unser Vision-Sprachmodell, MiniMax-VL-01, wird durch kontinuierliches Training mit 512 Milliarden Vision-Sprach-Tokens aufgebaut. Experimente sowohl auf Standard- als auch auf firmeninternen Benchmarks zeigen, dass unsere Modelle die Leistung von Spitzenmodellen wie GPT-4o und Claude-3.5-Sonnet erreichen, während sie ein 20-32 Mal längeres Kontextfenster bieten. Wir veröffentlichen MiniMax-01 öffentlich unter https://github.com/MiniMax-AI.