Hacia el Modelado Multimodal Nativo: Una Hoja de Ruta

Resumen

El modelado multimodal representa un paso fundamental desde el razonamiento independiente de la modalidad hacia el modelado del mundo. Mientras que los enfoques tempranos se basaban predominantemente en la fusión tardía, que ensambla codificadores y módulos lingüísticos congelados con cabezales de salida, los esfuerzos recientes han desplazado el paradigma hacia el modelado multimodal nativo (NMM), con la integración intrínseca de modalidades para un rendimiento multimodal superior. A pesar de su potencial, el espacio de diseño de las arquitecturas nativas sigue estando insuficientemente definido. En este artículo, presentamos a la comunidad una hoja de ruta formalizada para esta transición. Específicamente, definimos formalmente la natiividad arquitectónica, distinguiendo la fusión media y la fusión temprana de los paradigmas no nativos. Además, organizamos los modelos nativos existentes a través del lente de la dualidad entrada-salida en tres categorías: (i) Multi-a-Texto para la comprensión intermodal con salida exclusivamente textual; (ii) Multi-a-Objetivo para la generación orientada a escenarios, por ejemplo, generación de imágenes, audio y video; y (iii) Multi-a-Multi para el modelado unificado con entrada-salida simétrica. Ofrecemos una investigación exhaustiva y de nivel industrial sobre la transición hacia el marco definitivo de NMM, donde la comprensión y la generación coexisten sin problemas dentro de un paradigma unificado de transformadores. Desglosamos sistemáticamente el flujo de trabajo integral desde perspectivas industriales, abarcando la coordinación arquitectónica, la curaduría masiva de datos, así como recetas de entrenamiento integrales, inferencia y despliegue, y la evaluación exhaustiva para un modelado verdaderamente nativo.

English

Multimodal modeling represents a vital step from modality-agnostic reasoning toward world modeling. While early approaches predominantly rely on late-fusion that assembles encoders and frozen language backbones with output heads, recent efforts have shifted the paradigm toward native multimodal modeling (NMM) with the intrinsic integration of modalities for superior multimodal performance. Despite its potential, the design space of native architectures remains insufficiently defined. In this paper, we present the community with a formalized roadmap for this transition. Specifically, we formally define the architectural nativity, distinguishing mid-fusion and early-fusion from non-native paradigms. We further organize the existing native models through the lens of input-output duality into three categories: (i) Multi-to-Text for cross-modal comprehension with text-only output; (ii) Multi-to-Target for scenario-oriented generation, e.g., image, audio and video generation, and (iii) Multi-to-Multi for unified modeling with symmetric input-output. We deliver a comprehensive and industrial-grade investigation into the transition toward the definitive NMM framework, where understanding and generation seamlessly coexist within a unified transformer paradigm. We systematically unpack the end-to-end pipeline from industrial perspectives from architectural coordination, massive data curation, to full-stack training recipes, inference & deployment, and the comprehensive evaluation for truly native modeling.