Rumo à Modelagem Multimodal Nativa: Um Roteiro

Resumo

A modelagem multimodal representa um passo vital do raciocínio agnóstico em relação à modalidade em direção à modelagem do mundo. Embora as abordagens iniciais se baseiem predominantemente na fusão tardia, que reúne codificadores e backbones de linguagem congelados com cabeças de saída, esforços recentes deslocaram o paradigma em direção à modelagem multimodal nativa (NMM) com a integração intrínseca das modalidades para um desempenho multimodal superior. Apesar de seu potencial, o espaço de projeto de arquiteturas nativas permanece insuficientemente definido. Neste artigo, apresentamos à comunidade um roteiro formalizado para essa transição. Especificamente, definimos formalmente a naticidade arquitetural, distinguindo a fusão intermediária e a fusão precoce dos paradigmas não nativos. Organizamos ainda os modelos nativos existentes através da lente da dualidade entrada-saída em três categorias: (i) Multi-to-Text para compreensão cross-modal com saída apenas de texto; (ii) Multi-to-Target para geração orientada a cenários, por exemplo, geração de imagens, áudio e vídeo; e (iii) Multi-to-Multi para modelagem unificada com entrada-saída simétrica. Realizamos uma investigação abrangente e de nível industrial sobre a transição para o framework NMM definitivo, onde compreensão e geração coexistem perfeitamente dentro de um paradigma de transformer unificado. Desempacotamos sistematicamente o pipeline ponta a ponta sob perspectivas industriais, desde coordenação arquitetural, curadoria massiva de dados, até receitas de treinamento full-stack, inferência e implantação, e a avaliação abrangente para uma modelagem verdadeiramente nativa.

English

Multimodal modeling represents a vital step from modality-agnostic reasoning toward world modeling. While early approaches predominantly rely on late-fusion that assembles encoders and frozen language backbones with output heads, recent efforts have shifted the paradigm toward native multimodal modeling (NMM) with the intrinsic integration of modalities for superior multimodal performance. Despite its potential, the design space of native architectures remains insufficiently defined. In this paper, we present the community with a formalized roadmap for this transition. Specifically, we formally define the architectural nativity, distinguishing mid-fusion and early-fusion from non-native paradigms. We further organize the existing native models through the lens of input-output duality into three categories: (i) Multi-to-Text for cross-modal comprehension with text-only output; (ii) Multi-to-Target for scenario-oriented generation, e.g., image, audio and video generation, and (iii) Multi-to-Multi for unified modeling with symmetric input-output. We deliver a comprehensive and industrial-grade investigation into the transition toward the definitive NMM framework, where understanding and generation seamlessly coexist within a unified transformer paradigm. We systematically unpack the end-to-end pipeline from industrial perspectives from architectural coordination, massive data curation, to full-stack training recipes, inference & deployment, and the comprehensive evaluation for truly native modeling.