ChatPaper.aiChatPaper

統一的多モーダルモデルにおける生成による理解促進:マルチ表現生成を介して

Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

January 29, 2026
著者: Zihan Su, Hongyang Wei, Kangrui Cen, Yong Wang, Guanhua Chen, Chun Yuan, Xiangxiang Chu
cs.AI

要旨

統合マルチモーダルモデル(UMM)は、視覚的理解と生成を単一の枠組みに統合する。その究極の目標は、理解と生成が相互に強化し合う循環を創出することである。近年の事後学習手法は、理解を活用して生成を強化することに成功しているが、生成を利用して理解を改善する逆方向のアプローチはほとんど未開拓のままである。本研究では、シンプルかつ効果的でアーキテクチャに依存しない事後学習手法UniMRG(Unified Multi-Representation Generation)を提案する。UniMRGは補助的な生成タスクを導入することでUMMの理解能力を強化する。具体的には、標準的な視覚理解タスクに加えて、入力画像の複数の内在的表現——ピクセル(再構成)、深度(幾何学)、セグメンテーション(構造)——の生成をUMMに学習させる。これらの多様な表現を統合的に生成することで、UMMは外観、空間関係、構造的レイアウトに関する相補的な情報を獲得する。その結果、UMMは視覚入力をより深く包括的に理解できるようになる。様々なUMMアーキテクチャを用いた大規模な実験により、本手法が微細な知覚の向上、幻覚の低減、空間理解の改善を顕著にもたらし、同時に生成能力も強化されることが実証された。
English
Unified Multimodal Models (UMMs) integrate both visual understanding and generation within a single framework. Their ultimate aspiration is to create a cycle where understanding and generation mutually reinforce each other. While recent post-training methods have successfully leveraged understanding to enhance generation, the reverse direction of utilizing generation to improve understanding remains largely unexplored. In this work, we propose UniMRG (Unified Multi-Representation Generation), a simple yet effective architecture-agnostic post-training method. UniMRG enhances the understanding capabilities of UMMs by incorporating auxiliary generation tasks. Specifically, we train UMMs to generate multiple intrinsic representations of input images, namely pixel (reconstruction), depth (geometry), and segmentation (structure), alongside standard visual understanding objectives. By synthesizing these diverse representations, UMMs capture complementary information regarding appearance, spatial relations, and structural layout. Consequently, UMMs develop a deeper and more comprehensive understanding of visual inputs. Extensive experiments across diverse UMM architectures demonstrate that our method notably enhances fine-grained perception, reduces hallucinations, and improves spatial understanding, while simultaneously boosting generation capabilities.
PDF34January 31, 2026