L'allineamento nella ricostruzione migliora i modelli multimodali unificati.
Reconstruction Alignment Improves Unified Multimodal Models
September 8, 2025
Autori: Ji Xie, Trevor Darrell, Luke Zettlemoyer, XuDong Wang
cs.AI
Abstract
I modelli multimodali unificati (UMM) integrano la comprensione e la generazione visiva all'interno di un'unica architettura. Tuttavia, l'addestramento convenzionale si basa su coppie (o sequenze) di immagini e testi le cui descrizioni sono tipicamente scarne e prive di dettagli visivi fini, anche quando utilizzano centinaia di parole per descrivere una semplice immagine. Introduciamo la Ricostruzione Allineata (RecA), un metodo post-addestramento efficiente in termini di risorse che sfrutta gli embedding del codificatore di comprensione visiva come "prompt testuali" densi, fornendo una supervisione ricca senza l'uso di didascalie. Nello specifico, RecA condiziona un UMM sui propri embedding di comprensione visiva e lo ottimizza per ricostruire l'immagine di input con una perdita di ricostruzione auto-supervisionata, riallineando così comprensione e generazione. Nonostante la sua semplicità, RecA è ampiamente applicabile: su UMM basati su autoregressione, autoregressione mascherata e diffusione, migliora costantemente la fedeltà di generazione e modifica. Con sole 27 ore di GPU, il post-addestramento con RecA migliora significativamente le prestazioni di generazione di immagini su GenEval (0.73→0.90) e DPGBench (80.93→88.15), mentre aumenta anche i benchmark di modifica (ImgEdit 3.38→3.75, GEdit 6.94→7.25). È degno di nota che RecA supera modelli open-source molto più grandi e si applica ampiamente a diverse architetture UMM, stabilendosi come una strategia di allineamento post-addestramento efficiente e generale per gli UMM.
English
Unified multimodal models (UMMs) unify visual understanding and generation
within a single architecture. However, conventional training relies on
image-text pairs (or sequences) whose captions are typically sparse and miss
fine-grained visual details--even when they use hundreds of words to describe a
simple image. We introduce Reconstruction Alignment (RecA), a
resource-efficient post-training method that leverages visual understanding
encoder embeddings as dense "text prompts," providing rich supervision without
captions. Concretely, RecA conditions a UMM on its own visual understanding
embeddings and optimizes it to reconstruct the input image with a
self-supervised reconstruction loss, thereby realigning understanding and
generation. Despite its simplicity, RecA is broadly applicable: across
autoregressive, masked-autoregressive, and diffusion-based UMMs, it
consistently improves generation and editing fidelity. With only 27 GPU-hours,
post-training with RecA substantially improves image generation performance on
GenEval (0.73rightarrow0.90) and DPGBench (80.93rightarrow88.15), while
also boosting editing benchmarks (ImgEdit 3.38rightarrow3.75, GEdit
6.94rightarrow7.25). Notably, RecA surpasses much larger open-source models
and applies broadly across diverse UMM architectures, establishing it as an
efficient and general post-training alignment strategy for UMMs