Auf dem Weg zu nativer multimodaler Modellierung: Eine Roadmap

Zusammenfassung

Multimodale Modellierung stellt einen entscheidenden Schritt vom modalitätsagnostischen Schließen hin zur Weltmodellierung dar. Während frühe Ansätze überwiegend auf Late Fusion setzen, die Encoder und eingefrorene Sprach-Backbones mit Ausgabeköpfen kombiniert, haben neuere Bemühungen das Paradigma hin zur nativen multimodalen Modellierung (NMM) mit intrinsischer Integration der Modalitäten für überlegene multimodale Leistung verschoben. Trotz ihres Potenzials bleibt der Designraum nativer Architekturen unzureichend definiert. In diesem Beitrag präsentieren wir der Forschungsgemeinschaft eine formalisierte Roadmap für diesen Übergang. Konkret definieren wir formal die architektonische Nativeität und unterscheiden Mid-Fusion und Early-Fusion von nicht-nativen Paradigmen. Weiterhin systematisieren wir die bestehenden nativen Modelle anhand der Eingabe-Ausgabe-Dualität in drei Kategorien: (i) Multi-to-Text für cross-modales Verständnis mit text-only-Ausgabe; (ii) Multi-to-Target für szenarienorientierte Generierung, z.B. Bild-, Audio- und Videogenerierung; und (iii) Multi-to-Multi für einheitliche Modellierung mit symmetrischer Ein- und Ausgabe. Wir liefern eine umfassende und industrietaugliche Untersuchung des Übergangs zum endgültigen NMM-Rahmenwerk, in dem Verständnis und Generierung nahtlos in einem einheitlichen Transformer-Paradigma koexistieren. Wir entpacken systematisch die End-to-End-Pipeline aus industrieller Perspektive – von der architektonischen Koordination, über die massive Datenkuratierung, bis hin zu Full-Stack-Trainingrezepten, Inferenz und Deployment sowie der umfassenden Bewertung für wirklich native Modellierung.

English

Multimodal modeling represents a vital step from modality-agnostic reasoning toward world modeling. While early approaches predominantly rely on late-fusion that assembles encoders and frozen language backbones with output heads, recent efforts have shifted the paradigm toward native multimodal modeling (NMM) with the intrinsic integration of modalities for superior multimodal performance. Despite its potential, the design space of native architectures remains insufficiently defined. In this paper, we present the community with a formalized roadmap for this transition. Specifically, we formally define the architectural nativity, distinguishing mid-fusion and early-fusion from non-native paradigms. We further organize the existing native models through the lens of input-output duality into three categories: (i) Multi-to-Text for cross-modal comprehension with text-only output; (ii) Multi-to-Target for scenario-oriented generation, e.g., image, audio and video generation, and (iii) Multi-to-Multi for unified modeling with symmetric input-output. We deliver a comprehensive and industrial-grade investigation into the transition toward the definitive NMM framework, where understanding and generation seamlessly coexist within a unified transformer paradigm. We systematically unpack the end-to-end pipeline from industrial perspectives from architectural coordination, massive data curation, to full-stack training recipes, inference & deployment, and the comprehensive evaluation for truly native modeling.