ChatPaper.aiChatPaper

ネイティブマルチモーダルモデリングに向けて:ロードマップ

Toward Native Multimodal Modeling: A Roadmap

May 25, 2026
著者: Siyu An, Junru Lu, Junnan Dong, Qiufeng Wang, Yinghui Li, Weizhi Fei, Zichao Yu, Zheng Yuan, Biao Liu, Haopeng Wang, Renzhao Liang, Yixuan Yang, Yunhang Shen, Bo Ke, Keyu Chen, Linhao Luo, Difan Zou, Xiao Huang, Di Yin, Ruizhi Qiao, Xing Sun
cs.AI

要旨

マルチモーダルモデリングは、モダリティ非依存の推論から世界モデリングへの重要なステップを構成する。初期のアプローチは主に、エンコーダと出力ヘッドを備えた凍結言語バックボーンを組み合わせる後期融合に依存していたが、最近の研究では、優れたマルチモーダル性能を実現するためにモダリティを内在的に統合したネイティブマルチモーダルモデリング(NMM)へとパラダイムを移行させている。その可能性にもかかわらず、ネイティブアーキテクチャの設計空間は未だ十分に定義されていない。本論文では、この移行のための形式化されたロードマップをコミュニティに提示する。具体的には、アーキテクチャのネイティブ性を形式的に定義し、中期融合および前期融合を非ネイティブパラダイムから区別する。さらに、既存のネイティブモデルを入出力の二重性の観点から、(i) テキストのみを出力とするクロスモーダル理解のためのMulti-to-Text、(ii) 画像、音声、動画生成などのシナリオ指向生成のためのMulti-to-Target、(iii) 対称的な入出力による統一モデリングのためのMulti-to-Multi、の3カテゴリに整理する。我々は、理解と生成が統一トランスフォーマーパラダイム内でシームレスに共存する、決定的なNMMフレームワークへの移行に関する包括的かつ産業グレードの調査を提供する。産業的観点から、アーキテクチャの協調、大規模データキュレーション、フルスタックのトレーニングレシピ、推論・デプロイメント、そして真のネイティブモデリングのための包括的評価に至るエンドツーエンドのパイプラインを体系的に解明する。
English
Multimodal modeling represents a vital step from modality-agnostic reasoning toward world modeling. While early approaches predominantly rely on late-fusion that assembles encoders and frozen language backbones with output heads, recent efforts have shifted the paradigm toward native multimodal modeling (NMM) with the intrinsic integration of modalities for superior multimodal performance. Despite its potential, the design space of native architectures remains insufficiently defined. In this paper, we present the community with a formalized roadmap for this transition. Specifically, we formally define the architectural nativity, distinguishing mid-fusion and early-fusion from non-native paradigms. We further organize the existing native models through the lens of input-output duality into three categories: (i) Multi-to-Text for cross-modal comprehension with text-only output; (ii) Multi-to-Target for scenario-oriented generation, e.g., image, audio and video generation, and (iii) Multi-to-Multi for unified modeling with symmetric input-output. We deliver a comprehensive and industrial-grade investigation into the transition toward the definitive NMM framework, where understanding and generation seamlessly coexist within a unified transformer paradigm. We systematically unpack the end-to-end pipeline from industrial perspectives from architectural coordination, massive data curation, to full-stack training recipes, inference & deployment, and the comprehensive evaluation for truly native modeling.