Naar native multimodale modellering: een routekaart

Samenvatting

Multimodale modellering vormt een cruciale stap van modaliteits-agnostisch redeneren naar wereldmodellering. Terwijl vroege benaderingen voornamelijk vertrouwden op late fusie, die encoders en bevroren taalruggengraat combineert met uitvoerkoppen, hebben recente inspanningen het paradigma verschoven naar natieve multimodale modellering (NMM) met intrinsieke integratie van modaliteiten voor superieure multimodale prestaties. Ondanks het potentieel is de ontwerpruimte van natieve architecturen nog onvoldoende gedefinieerd. In dit artikel presenteren we de gemeenschap een geformaliseerde routekaart voor deze overgang. Specifiek definiëren we formeel de architecturale nativiteit, waarbij we middenfusie en vroege fusie onderscheiden van niet-natieve paradigma's. Verder ordenen we de bestaande natieve modellen door de lens van invoer-uitvoer dualiteit in drie categorieën: (i) Multi-naar-Tekst voor cross-modaal begrip met alleen tekstuitvoer; (ii) Multi-naar-Doel voor scenario-georiënteerde generatie, bijvoorbeeld afbeelding, audio en videogeneratie; en (iii) Multi-naar-Multi voor uniforme modellering met symmetrische invoer-uitvoer. We leveren een uitgebreid en industrieel onderzoek naar de overgang naar het definitieve NMM-framework, waar begrip en generatie naadloos naast elkaar bestaan binnen een uniform transformatorparadigma. We pakken systematisch de end-to-end pijplijn uit vanuit industriële perspectieven, van architecturale coördinatie, massale gegevenscuratie, tot full-stack trainingsrecepten, inferentie en implementatie, en de uitgebreide evaluatie voor echt native modellering.

English

Multimodal modeling represents a vital step from modality-agnostic reasoning toward world modeling. While early approaches predominantly rely on late-fusion that assembles encoders and frozen language backbones with output heads, recent efforts have shifted the paradigm toward native multimodal modeling (NMM) with the intrinsic integration of modalities for superior multimodal performance. Despite its potential, the design space of native architectures remains insufficiently defined. In this paper, we present the community with a formalized roadmap for this transition. Specifically, we formally define the architectural nativity, distinguishing mid-fusion and early-fusion from non-native paradigms. We further organize the existing native models through the lens of input-output duality into three categories: (i) Multi-to-Text for cross-modal comprehension with text-only output; (ii) Multi-to-Target for scenario-oriented generation, e.g., image, audio and video generation, and (iii) Multi-to-Multi for unified modeling with symmetric input-output. We deliver a comprehensive and industrial-grade investigation into the transition toward the definitive NMM framework, where understanding and generation seamlessly coexist within a unified transformer paradigm. We systematically unpack the end-to-end pipeline from industrial perspectives from architectural coordination, massive data curation, to full-stack training recipes, inference & deployment, and the comprehensive evaluation for truly native modeling.