ChatPaper.aiChatPaper

통합 다중모달 이해 및 생성 모델: 발전, 과제, 그리고 기회

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

May 5, 2025
저자: Xinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI

초록

최근 몇 년간 멀티모달 이해 모델과 이미지 생성 모델 모두에서 놀라운 발전이 이루어졌다. 각각의 성공에도 불구하고, 이 두 분야는 독립적으로 진화하며 서로 다른 아키텍처 패러다임을 형성해 왔다: 멀티모달 이해 분야에서는 자기회귀 기반 아키텍처가 주도적인 반면, 이미지 생성 분야에서는 확산 기반 모델이 핵심적인 역할을 해왔다. 최근에는 이러한 작업들을 통합하는 통합 프레임워크 개발에 대한 관심이 점차 증가하고 있다. GPT-4o의 새로운 기능 등장은 이러한 통합의 가능성을 보여주는 대표적인 사례이다. 그러나 두 분야 간의 아키텍처적 차이는 상당한 도전 과제로 남아 있다. 통합을 위한 현재의 노력을 명확히 정리하고 미래 연구를 안내하기 위해, 본 논문에서는 포괄적인 조사를 제시한다. 먼저, 멀티모달 이해와 텍스트-이미지 생성 모델의 기본 개념과 최근 발전을 소개한다. 다음으로, 기존의 통합 모델들을 검토하며 이를 확산 기반, 자기회귀 기반, 그리고 자기회귀와 확산 메커니즘을 융합한 하이브리드 접근법이라는 세 가지 주요 아키텍처 패러다임으로 분류한다. 각 범주에 대해 관련 연구에서 도입된 구조적 설계와 혁신을 분석한다. 또한, 통합 모델을 위해 특화된 데이터셋과 벤치마크를 정리하여 향후 탐구를 위한 자료를 제공한다. 마지막으로, 토큰화 전략, 교차 모달 어텐션, 데이터 등 이 초기 단계의 분야가 직면한 주요 과제에 대해 논의한다. 이 분야는 아직 초기 단계에 있기 때문에 빠른 발전이 예상되며, 본 조사는 정기적으로 업데이트될 예정이다. 우리의 목표는 추가 연구를 촉진하고 학계에 가치 있는 참고 자료를 제공하는 것이다. 본 조사와 관련된 참고 문헌은 GitHub(https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models)에서 확인할 수 있다.
English
Recent years have seen remarkable progress in both multimodal understanding models and image generation models. Despite their respective successes, these two domains have evolved independently, leading to distinct architectural paradigms: While autoregressive-based architectures have dominated multimodal understanding, diffusion-based models have become the cornerstone of image generation. Recently, there has been growing interest in developing unified frameworks that integrate these tasks. The emergence of GPT-4o's new capabilities exemplifies this trend, highlighting the potential for unification. However, the architectural differences between the two domains pose significant challenges. To provide a clear overview of current efforts toward unification, we present a comprehensive survey aimed at guiding future research. First, we introduce the foundational concepts and recent advancements in multimodal understanding and text-to-image generation models. Next, we review existing unified models, categorizing them into three main architectural paradigms: diffusion-based, autoregressive-based, and hybrid approaches that fuse autoregressive and diffusion mechanisms. For each category, we analyze the structural designs and innovations introduced by related works. Additionally, we compile datasets and benchmarks tailored for unified models, offering resources for future exploration. Finally, we discuss the key challenges facing this nascent field, including tokenization strategy, cross-modal attention, and data. As this area is still in its early stages, we anticipate rapid advancements and will regularly update this survey. Our goal is to inspire further research and provide a valuable reference for the community. The references associated with this survey are available on GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).

Summary

AI-Generated Summary

PDF604May 8, 2025