Emu3: Die Vorhersage des nächsten Tokens ist alles, was Sie brauchenEmu3: Next-Token Prediction is All You Need
Obwohl die Vorhersage des nächsten Tokens als vielversprechender Weg zur künstlichen allgemeinen Intelligenz gilt, hat sie Schwierigkeiten, sich in multimodalen Aufgaben zu behaupten, die immer noch von Diffusionsmodellen (z. B. Stabile Diffusion) und kompositorischen Ansätzen (z. B. CLIP in Kombination mit LLMs) dominiert werden. In diesem Paper stellen wir Emu3 vor, eine neue Suite von hochmodernen multimodalen Modellen, die ausschließlich mit der Vorhersage des nächsten Tokens trainiert wurden. Indem wir Bilder, Texte und Videos in einen diskreten Raum tokenisieren, trainieren wir einen einzigen Transformer von Grund auf an einer Mischung von multimodalen Sequenzen. Emu3 übertrifft mehrere etablierte aufgabenspezifische Modelle sowohl in Generierungs- als auch in Wahrnehmungsaufgaben und übertrifft Flaggschiffmodelle wie SDXL und LLaVA-1.6, während die Notwendigkeit von Diffusions- oder kompositorischen Architekturen eliminiert wird. Emu3 ist auch in der Lage, hochwertige Videos zu generieren, indem der nächste Token in einer Videosequenz vorhergesagt wird. Wir vereinfachen komplexe multimodale Modellentwürfe, indem wir uns auf einen einzigen Fokus konzentrieren: Tokens, was großes Potenzial für das Skalieren sowohl während des Trainings als auch bei der Inferenz freisetzt. Unsere Ergebnisse zeigen, dass die Vorhersage des nächsten Tokens ein vielversprechender Weg ist, um eine allgemeine multimodale Intelligenz jenseits der Sprache aufzubauen. Wir stellen Schlüsseltechniken und Modelle als Open Source zur Verfügung, um weitere Forschung in diese Richtung zu unterstützen.