К нативному мультимодальному моделированию: дорожная карта

Аннотация

Мультимодальное моделирование представляет собой важный шаг от модально-независимого рассуждения к моделированию мира. В то время как ранние подходы в основном полагались на позднее слияние, объединяющее кодеры и замороженные языковые магистрали с выходными головками, недавние усилия сместили парадигму в сторону нативного мультимодального моделирования (НММ) с внутренней интеграцией модальностей для достижения превосходной мультимодальной производительности. Несмотря на его потенциал, пространство проектных решений нативных архитектур остается недостаточно определенным. В данной статье мы предлагаем научному сообществу формализованную дорожную карту для этого перехода. В частности, мы формально определяем архитектурную нативность, отличая среднее слияние и раннее слияние от ненативных парадигм. Мы также организуем существующие нативные модели через призму дуальности ввода-вывода в три категории: (i) «Мульти-к-Тексту» для кросс-модального понимания с выводом только текста; (ii) «Мульти-к-Цели» для сценарно-ориентированной генерации, например, генерации изображений, аудио и видео; и (iii) «Мульти-к-Мульти» для единого моделирования с симметричным вводом-выводом. Мы проводим всестороннее исследование промышленного уровня перехода к окончательной структуре НММ, где понимание и генерация бесшовно сосуществуют в рамках единой парадигмы трансформера. Мы систематически раскрываем сквозной конвейер с промышленных точек зрения: от архитектурной координации, курирования больших данных до полностековых рецептов обучения, инференса и развертывания, а также всесторонней оценки для действительно нативного моделирования.

English

Multimodal modeling represents a vital step from modality-agnostic reasoning toward world modeling. While early approaches predominantly rely on late-fusion that assembles encoders and frozen language backbones with output heads, recent efforts have shifted the paradigm toward native multimodal modeling (NMM) with the intrinsic integration of modalities for superior multimodal performance. Despite its potential, the design space of native architectures remains insufficiently defined. In this paper, we present the community with a formalized roadmap for this transition. Specifically, we formally define the architectural nativity, distinguishing mid-fusion and early-fusion from non-native paradigms. We further organize the existing native models through the lens of input-output duality into three categories: (i) Multi-to-Text for cross-modal comprehension with text-only output; (ii) Multi-to-Target for scenario-oriented generation, e.g., image, audio and video generation, and (iii) Multi-to-Multi for unified modeling with symmetric input-output. We deliver a comprehensive and industrial-grade investigation into the transition toward the definitive NMM framework, where understanding and generation seamlessly coexist within a unified transformer paradigm. We systematically unpack the end-to-end pipeline from industrial perspectives from architectural coordination, massive data curation, to full-stack training recipes, inference & deployment, and the comprehensive evaluation for truly native modeling.