統一されたマルチモーダル理解と生成モデル:進展、課題、そして機会Unified Multimodal Understanding and Generation Models: Advances,
Challenges, and Opportunities
近年、マルチモーダル理解モデルと画像生成モデルの両分野で目覚ましい進展が見られています。それぞれの成功にもかかわらず、これらの分野は独立して進化し、異なるアーキテクチャのパラダイムを形成してきました。マルチモーダル理解では自己回帰型アーキテクチャが主流である一方、画像生成では拡散モデルが基盤となっています。最近、これらのタスクを統合する統一フレームワークの開発に対する関心が高まっています。GPT-4oの新機能の登場はこの傾向を象徴しており、統合の可能性を示しています。しかし、両分野のアーキテクチャの違いは大きな課題となっています。統合に向けた現在の取り組みを明確に概観するため、将来の研究を導くことを目的とした包括的な調査を提示します。まず、マルチモーダル理解とテキストから画像生成モデルの基礎概念と最近の進展を紹介します。次に、既存の統一モデルをレビューし、それらを拡散ベース、自己回帰ベース、および自己回帰と拡散メカニズムを融合したハイブリッドアプローチの3つの主要なアーキテクチャパラダイムに分類します。各カテゴリーについて、関連研究が導入した構造設計と革新を分析します。さらに、統一モデルに特化したデータセットとベンチマークをまとめ、将来の探求のためのリソースを提供します。最後に、トークン化戦略、クロスモーダルアテンション、データなど、この新興分野が直面する主要な課題について議論します。この分野はまだ初期段階にあるため、急速な進展が予想され、本調査を定期的に更新する予定です。私たちの目標は、さらなる研究を刺激し、コミュニティにとって貴重な参考資料を提供することです。本調査に関連する参考文献はGitHub(https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models)で公開されています。