통합 다중모달 이해 및 생성 모델: 발전, 과제, 그리고 기회Unified Multimodal Understanding and Generation Models: Advances,
Challenges, and Opportunities
최근 몇 년간 멀티모달 이해 모델과 이미지 생성 모델 모두에서 놀라운 발전이 이루어졌다. 각각의 성공에도 불구하고, 이 두 분야는 독립적으로 진화하며 서로 다른 아키텍처 패러다임을 형성해 왔다: 멀티모달 이해 분야에서는 자기회귀 기반 아키텍처가 주도적인 반면, 이미지 생성 분야에서는 확산 기반 모델이 핵심적인 역할을 해왔다. 최근에는 이러한 작업들을 통합하는 통합 프레임워크 개발에 대한 관심이 점차 증가하고 있다. GPT-4o의 새로운 기능 등장은 이러한 통합의 가능성을 보여주는 대표적인 사례이다. 그러나 두 분야 간의 아키텍처적 차이는 상당한 도전 과제로 남아 있다. 통합을 위한 현재의 노력을 명확히 정리하고 미래 연구를 안내하기 위해, 본 논문에서는 포괄적인 조사를 제시한다. 먼저, 멀티모달 이해와 텍스트-이미지 생성 모델의 기본 개념과 최근 발전을 소개한다. 다음으로, 기존의 통합 모델들을 검토하며 이를 확산 기반, 자기회귀 기반, 그리고 자기회귀와 확산 메커니즘을 융합한 하이브리드 접근법이라는 세 가지 주요 아키텍처 패러다임으로 분류한다. 각 범주에 대해 관련 연구에서 도입된 구조적 설계와 혁신을 분석한다. 또한, 통합 모델을 위해 특화된 데이터셋과 벤치마크를 정리하여 향후 탐구를 위한 자료를 제공한다. 마지막으로, 토큰화 전략, 교차 모달 어텐션, 데이터 등 이 초기 단계의 분야가 직면한 주요 과제에 대해 논의한다. 이 분야는 아직 초기 단계에 있기 때문에 빠른 발전이 예상되며, 본 조사는 정기적으로 업데이트될 예정이다. 우리의 목표는 추가 연구를 촉진하고 학계에 가치 있는 참고 자료를 제공하는 것이다. 본 조사와 관련된 참고 문헌은 GitHub(https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models)에서 확인할 수 있다.