L'alignement de reconstruction améliore les modèles multimodaux unifiés.
Reconstruction Alignment Improves Unified Multimodal Models
September 8, 2025
papers.authors: Ji Xie, Trevor Darrell, Luke Zettlemoyer, XuDong Wang
cs.AI
papers.abstract
Les modèles multimodaux unifiés (UMM) intègrent la compréhension et la génération visuelles au sein d'une seule architecture. Cependant, l'entraînement conventionnel repose sur des paires (ou séquences) image-texte dont les légendes sont généralement succinctes et manquent de détails visuels fins—même lorsqu'elles utilisent des centaines de mots pour décrire une image simple. Nous introduisons l'Alignement par Reconstruction (RecA), une méthode post-entraînement économe en ressources qui exploite les embeddings d'un encodeur de compréhension visuelle comme "prompts textuels" denses, fournissant une supervision riche sans légendes. Concrètement, RecA conditionne un UMM sur ses propres embeddings de compréhension visuelle et l'optimise pour reconstruire l'image d'entrée avec une perte de reconstruction auto-supervisée, réalignant ainsi la compréhension et la génération. Malgré sa simplicité, RecA est largement applicable : pour les UMM basés sur l'autorégression, l'autorégression masquée et la diffusion, il améliore systématiquement la fidélité de la génération et de l'édition. Avec seulement 27 heures GPU, le post-entraînement avec RecA améliore significativement les performances de génération d'images sur GenEval (0.73→0.90) et DPGBench (80.93→88.15), tout en boostant les benchmarks d'édition (ImgEdit 3.38→3.75, GEdit 6.94→7.25). Notamment, RecA surpasse des modèles open-source bien plus volumineux et s'applique largement à diverses architectures UMM, s'établissant comme une stratégie d'alignement post-entraînement efficace et générale pour les UMM.
English
Unified multimodal models (UMMs) unify visual understanding and generation
within a single architecture. However, conventional training relies on
image-text pairs (or sequences) whose captions are typically sparse and miss
fine-grained visual details--even when they use hundreds of words to describe a
simple image. We introduce Reconstruction Alignment (RecA), a
resource-efficient post-training method that leverages visual understanding
encoder embeddings as dense "text prompts," providing rich supervision without
captions. Concretely, RecA conditions a UMM on its own visual understanding
embeddings and optimizes it to reconstruct the input image with a
self-supervised reconstruction loss, thereby realigning understanding and
generation. Despite its simplicity, RecA is broadly applicable: across
autoregressive, masked-autoregressive, and diffusion-based UMMs, it
consistently improves generation and editing fidelity. With only 27 GPU-hours,
post-training with RecA substantially improves image generation performance on
GenEval (0.73rightarrow0.90) and DPGBench (80.93rightarrow88.15), while
also boosting editing benchmarks (ImgEdit 3.38rightarrow3.75, GEdit
6.94rightarrow7.25). Notably, RecA surpasses much larger open-source models
and applies broadly across diverse UMM architectures, establishing it as an
efficient and general post-training alignment strategy for UMMs