O Alinhamento de Reconstrução Melhora Modelos Multimodais Unificados
Reconstruction Alignment Improves Unified Multimodal Models
September 8, 2025
Autores: Ji Xie, Trevor Darrell, Luke Zettlemoyer, XuDong Wang
cs.AI
Resumo
Modelos multimodais unificados (UMMs) integram compreensão e geração visual em uma única arquitetura. No entanto, o treinamento convencional depende de pares (ou sequências) de imagem-texto cujas legendas são tipicamente esparsas e carecem de detalhes visuais refinados—mesmo quando utilizam centenas de palavras para descrever uma imagem simples. Introduzimos o Alinhamento por Reconstrução (RecA), um método pós-treinamento eficiente em recursos que aproveita embeddings de codificadores de compreensão visual como "prompts de texto" densos, fornecendo supervisão rica sem a necessidade de legendas. Concretamente, o RecA condiciona um UMM em seus próprios embeddings de compreensão visual e o otimiza para reconstruir a imagem de entrada com uma perda de reconstrução auto-supervisionada, realinhando assim a compreensão e a geração. Apesar de sua simplicidade, o RecA é amplamente aplicável: em UMMs baseados em autoregressão, autoregressão mascarada e difusão, ele melhora consistentemente a fidelidade de geração e edição. Com apenas 27 horas de GPU, o pós-treinamento com RecA melhora substancialmente o desempenho na geração de imagens no GenEval (0.73→0.90) e no DPGBench (80.93→88.15), ao mesmo tempo em que impulsiona benchmarks de edição (ImgEdit 3.38→3.75, GEdit 6.94→7.25). Notavelmente, o RecA supera modelos open-source muito maiores e se aplica amplamente em diversas arquiteturas de UMMs, estabelecendo-se como uma estratégia de alinhamento pós-treinamento eficiente e geral para UMMs.
English
Unified multimodal models (UMMs) unify visual understanding and generation
within a single architecture. However, conventional training relies on
image-text pairs (or sequences) whose captions are typically sparse and miss
fine-grained visual details--even when they use hundreds of words to describe a
simple image. We introduce Reconstruction Alignment (RecA), a
resource-efficient post-training method that leverages visual understanding
encoder embeddings as dense "text prompts," providing rich supervision without
captions. Concretely, RecA conditions a UMM on its own visual understanding
embeddings and optimizes it to reconstruct the input image with a
self-supervised reconstruction loss, thereby realigning understanding and
generation. Despite its simplicity, RecA is broadly applicable: across
autoregressive, masked-autoregressive, and diffusion-based UMMs, it
consistently improves generation and editing fidelity. With only 27 GPU-hours,
post-training with RecA substantially improves image generation performance on
GenEval (0.73rightarrow0.90) and DPGBench (80.93rightarrow88.15), while
also boosting editing benchmarks (ImgEdit 3.38rightarrow3.75, GEdit
6.94rightarrow7.25). Notably, RecA surpasses much larger open-source models
and applies broadly across diverse UMM architectures, establishing it as an
efficient and general post-training alignment strategy for UMMs