理解と生成は真に互いに利益をもたらすのか、それとも単に共存するだけなのか?
Can Understanding and Generation Truly Benefit Together -- or Just Coexist?
September 11, 2025
著者: Zhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Zhendong Wang, Hao Liu, Bin Lin, Hao Li, Xue Xu, Xinyan Xiao, Jingdong Wang, Haifeng Wang, Li Yuan
cs.AI
要旨
本論文では、オートエンコーダのレンズを通じて新しい洞察に満ちたパラダイムを紹介する。具体的には、画像をテキストに圧縮する理解プロセス(I2T)をエンコーダとして、そのテキストから画像を再構築する生成プロセス(T2I)をデコーダとして捉える。再構成の忠実度を統一的な訓練目的として用いることで、理解と生成のプロセス間の双方向的な情報の流れを強化し、相互に利益をもたらす。これを実現するために、我々は統一的なマルチモーダル学習のための新しいフレームワークであるUAEを提案する。まず、大規模な長文脈の画像キャプションを用いてデコーダを事前訓練し、細かい意味的および複雑な空間的関係を捉える。次に、強化学習(RL)を用いたUnified-GRPOを提案し、以下の3つの段階をカバーする:(1) セマンティック再構成損失を用いてエンコーダとデコーダを穏やかに初期化するコールドスタートフェーズ、(2) 理解のための生成フェーズでは、エンコーダがデコーダの再構成品質を最大化する情報量の多いキャプションを生成するように訓練され、視覚的理解が強化される、(3) 生成のための理解フェーズでは、デコーダがこれらのキャプションから再構成するように洗練され、細部を活用し、長文脈の指示に従う能力と生成の忠実度が向上する。評価のために、UMMの統一度を評価するために特別に設計された最初のベンチマークであるUnified-Benchを導入する。マルチモーダル学習領域において驚くべき「アハ体験」が生じる:RLが進むにつれて、エンコーダは自律的により記述的なキャプションを生成し、同時にデコーダはこれらの複雑な記述を深く理解する能力を示し、驚くほど忠実な再構成を実現する。
English
In this paper, we introduce an insightful paradigm through the Auto-Encoder
lens-understanding as the encoder (I2T) that compresses images into text, and
generation as the decoder (T2I) that reconstructs images from that text. Using
reconstruction fidelity as the unified training objective, we enforce the
coherent bidirectional information flow between the understanding and
generation processes, bringing mutual gains. To implement this, we propose UAE,
a novel framework for unified multimodal learning. We begin by pre-training the
decoder with large-scale long-context image captions to capture fine-grained
semantic and complex spatial relationships. We then propose Unified-GRPO via
reinforcement learning (RL), which covers three stages: (1) A cold-start phase
to gently initialize both encoder and decoder with a semantic reconstruction
loss; (2) Generation for Understanding, where the encoder is trained to
generate informative captions that maximize the decoder's reconstruction
quality, enhancing its visual understanding; (3) Understanding for Generation,
where the decoder is refined to reconstruct from these captions, forcing it to
leverage every detail and improving its long-context instruction following and
generation fidelity. For evaluation, we introduce Unified-Bench, the first
benchmark tailored to assess the degree of unification of the UMMs. A
surprising "aha moment" arises within the multimodal learning domain: as RL
progresses, the encoder autonomously produces more descriptive captions, while
the decoder simultaneously demonstrates a profound ability to understand these
intricate descriptions, resulting in reconstructions of striking fidelity.