再構成アライメントが統合マルチモーダルモデルを改善する
Reconstruction Alignment Improves Unified Multimodal Models
September 8, 2025
著者: Ji Xie, Trevor Darrell, Luke Zettlemoyer, XuDong Wang
cs.AI
要旨
統一マルチモーダルモデル(UMM)は、視覚理解と生成を単一のアーキテクチャ内に統合する。しかし、従来のトレーニングでは、画像とテキストのペア(またはシーケンス)に依存しており、そのキャプションは通常、疎であり、細かい視覚的詳細を欠いている——単純な画像を説明するために数百語を使用する場合でも。本論文では、リソース効率の高いポストトレーニング手法であるReconstruction Alignment(RecA)を導入する。RecAは、視覚理解エンコーダの埋め込みを密な「テキストプロンプト」として活用し、キャプションなしで豊富な監督を提供する。具体的には、RecAはUMMを自身の視覚理解埋め込みに条件付けし、自己教師あり再構成損失を用いて入力画像を再構成するように最適化し、それによって理解と生成を再調整する。そのシンプルさにもかかわらず、RecAは広く適用可能である:自己回帰型、マスク自己回帰型、および拡散ベースのUMM全体で、生成と編集の忠実度を一貫して向上させる。わずか27 GPU時間で、RecAによるポストトレーニングは、GenEval(0.73→0.90)およびDPGBench(80.93→88.15)での画像生成性能を大幅に向上させ、編集ベンチマーク(ImgEdit 3.38→3.75、GEdit 6.94→7.25)も向上させる。特に、RecAはより大規模なオープンソースモデルを凌駕し、多様なUMMアーキテクチャに広く適用可能であり、UMMの効率的で汎用的なポストトレーニングアライメント戦略として確立される。
English
Unified multimodal models (UMMs) unify visual understanding and generation
within a single architecture. However, conventional training relies on
image-text pairs (or sequences) whose captions are typically sparse and miss
fine-grained visual details--even when they use hundreds of words to describe a
simple image. We introduce Reconstruction Alignment (RecA), a
resource-efficient post-training method that leverages visual understanding
encoder embeddings as dense "text prompts," providing rich supervision without
captions. Concretely, RecA conditions a UMM on its own visual understanding
embeddings and optimizes it to reconstruct the input image with a
self-supervised reconstruction loss, thereby realigning understanding and
generation. Despite its simplicity, RecA is broadly applicable: across
autoregressive, masked-autoregressive, and diffusion-based UMMs, it
consistently improves generation and editing fidelity. With only 27 GPU-hours,
post-training with RecA substantially improves image generation performance on
GenEval (0.73rightarrow0.90) and DPGBench (80.93rightarrow88.15), while
also boosting editing benchmarks (ImgEdit 3.38rightarrow3.75, GEdit
6.94rightarrow7.25). Notably, RecA surpasses much larger open-source models
and applies broadly across diverse UMM architectures, establishing it as an
efficient and general post-training alignment strategy for UMMs