Vers la modélisation multimodale native : une feuille de route

Résumé

La modélisation multimodale constitue une étape cruciale dans la transition du raisonnement indifférent à la modalité vers la modélisation du monde. Alors que les premières approches reposaient majoritairement sur la fusion tardive, assemblant des encodeurs et des backbones linguistiques figés avec des têtes de sortie, les travaux récents ont déplacé le paradigme vers la modélisation multimodale native (MMN), grâce à une intégration intrinsèque des modalités pour des performances multimodales supérieures. Malgré son potentiel, l'espace de conception des architectures natives reste insuffisamment défini. Dans cet article, nous proposons à la communauté une feuille de route formalisée pour cette transition. Plus précisément, nous définissons formellement la nativité architecturale, en distinguant la fusion intermédiaire et la fusion précoce des paradigmes non natifs. Nous organisons également les modèles natifs existants sous l'angle de la dualité entrée-sortie en trois catégories : (i) Multi-vers-Texte pour la compréhension cross-modale avec sortie textuelle uniquement ; (ii) Multi-vers-Cible pour la génération orientée scénario, par exemple la génération d'images, d'audio et de vidéo ; et (iii) Multi-vers-Multi pour une modélisation unifiée avec entrée-sortie symétrique. Nous menons une enquête complète et de niveau industriel sur la transition vers le cadre définitif de la MMN, où compréhension et génération coexistent harmonieusement au sein d'un paradigme unifié de transformeur. Nous décortiquons systématiquement le pipeline de bout en bout sous des angles industriels, allant de la coordination architecturale, la curation massive de données, aux recettes d'entraînement complètes, l'inférence et le déploiement, ainsi qu'à l'évaluation exhaustive pour une modélisation véritablement native.

English

Multimodal modeling represents a vital step from modality-agnostic reasoning toward world modeling. While early approaches predominantly rely on late-fusion that assembles encoders and frozen language backbones with output heads, recent efforts have shifted the paradigm toward native multimodal modeling (NMM) with the intrinsic integration of modalities for superior multimodal performance. Despite its potential, the design space of native architectures remains insufficiently defined. In this paper, we present the community with a formalized roadmap for this transition. Specifically, we formally define the architectural nativity, distinguishing mid-fusion and early-fusion from non-native paradigms. We further organize the existing native models through the lens of input-output duality into three categories: (i) Multi-to-Text for cross-modal comprehension with text-only output; (ii) Multi-to-Target for scenario-oriented generation, e.g., image, audio and video generation, and (iii) Multi-to-Multi for unified modeling with symmetric input-output. We deliver a comprehensive and industrial-grade investigation into the transition toward the definitive NMM framework, where understanding and generation seamlessly coexist within a unified transformer paradigm. We systematically unpack the end-to-end pipeline from industrial perspectives from architectural coordination, massive data curation, to full-stack training recipes, inference & deployment, and the comprehensive evaluation for truly native modeling.