ChatPaper.aiChatPaper

L'alignement de reconstruction améliore les modèles multimodaux unifiés.

Reconstruction Alignment Improves Unified Multimodal Models

September 8, 2025
papers.authors: Ji Xie, Trevor Darrell, Luke Zettlemoyer, XuDong Wang
cs.AI

papers.abstract

Les modèles multimodaux unifiés (UMM) intègrent la compréhension et la génération visuelles au sein d'une seule architecture. Cependant, l'entraînement conventionnel repose sur des paires (ou séquences) image-texte dont les légendes sont généralement succinctes et manquent de détails visuels fins—même lorsqu'elles utilisent des centaines de mots pour décrire une image simple. Nous introduisons l'Alignement par Reconstruction (RecA), une méthode post-entraînement économe en ressources qui exploite les embeddings d'un encodeur de compréhension visuelle comme "prompts textuels" denses, fournissant une supervision riche sans légendes. Concrètement, RecA conditionne un UMM sur ses propres embeddings de compréhension visuelle et l'optimise pour reconstruire l'image d'entrée avec une perte de reconstruction auto-supervisée, réalignant ainsi la compréhension et la génération. Malgré sa simplicité, RecA est largement applicable : pour les UMM basés sur l'autorégression, l'autorégression masquée et la diffusion, il améliore systématiquement la fidélité de la génération et de l'édition. Avec seulement 27 heures GPU, le post-entraînement avec RecA améliore significativement les performances de génération d'images sur GenEval (0.73→0.90) et DPGBench (80.93→88.15), tout en boostant les benchmarks d'édition (ImgEdit 3.38→3.75, GEdit 6.94→7.25). Notamment, RecA surpasse des modèles open-source bien plus volumineux et s'applique largement à diverses architectures UMM, s'établissant comme une stratégie d'alignement post-entraînement efficace et générale pour les UMM.
English
Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich supervision without captions. Concretely, RecA conditions a UMM on its own visual understanding embeddings and optimizes it to reconstruct the input image with a self-supervised reconstruction loss, thereby realigning understanding and generation. Despite its simplicity, RecA is broadly applicable: across autoregressive, masked-autoregressive, and diffusion-based UMMs, it consistently improves generation and editing fidelity. With only 27 GPU-hours, post-training with RecA substantially improves image generation performance on GenEval (0.73rightarrow0.90) and DPGBench (80.93rightarrow88.15), while also boosting editing benchmarks (ImgEdit 3.38rightarrow3.75, GEdit 6.94rightarrow7.25). Notably, RecA surpasses much larger open-source models and applies broadly across diverse UMM architectures, establishing it as an efficient and general post-training alignment strategy for UMMs
PDF382September 10, 2025