La Alineación de Reconstrucción Mejora los Modelos Multimodales Unificados
Reconstruction Alignment Improves Unified Multimodal Models
September 8, 2025
Autores: Ji Xie, Trevor Darrell, Luke Zettlemoyer, XuDong Wang
cs.AI
Resumen
Los modelos multimodales unificados (UMMs, por sus siglas en inglés) integran la comprensión y generación visual dentro de una única arquitectura. Sin embargo, el entrenamiento convencional depende de pares (o secuencias) de imagen-texto cuyas descripciones suelen ser escasas y carecen de detalles visuales específicos, incluso cuando utilizan cientos de palabras para describir una imagen simple. Introducimos Alineación por Reconstrucción (RecA), un método eficiente en recursos para el posentrenamiento que aprovecha los embeddings de un codificador de comprensión visual como "indicadores de texto" densos, proporcionando una supervisión rica sin necesidad de descripciones. Concretamente, RecA condiciona un UMM sobre sus propios embeddings de comprensión visual y lo optimiza para reconstruir la imagen de entrada mediante una pérdida de reconstrucción auto-supervisada, realineando así la comprensión y la generación. A pesar de su simplicidad, RecA es ampliamente aplicable: en UMMs basados en autoregresión, autoregresión enmascarada y difusión, mejora consistentemente la fidelidad de generación y edición. Con solo 27 horas de GPU, el posentrenamiento con RecA mejora sustancialmente el rendimiento en generación de imágenes en GenEval (0.73→0.90) y DPGBench (80.93→88.15), mientras que también impulsa los benchmarks de edición (ImgEdit 3.38→3.75, GEdit 6.94→7.25). Notablemente, RecA supera a modelos de código abierto mucho más grandes y se aplica ampliamente en diversas arquitecturas de UMMs, estableciéndose como una estrategia eficiente y general de alineación posentrenamiento para UMMs.
English
Unified multimodal models (UMMs) unify visual understanding and generation
within a single architecture. However, conventional training relies on
image-text pairs (or sequences) whose captions are typically sparse and miss
fine-grained visual details--even when they use hundreds of words to describe a
simple image. We introduce Reconstruction Alignment (RecA), a
resource-efficient post-training method that leverages visual understanding
encoder embeddings as dense "text prompts," providing rich supervision without
captions. Concretely, RecA conditions a UMM on its own visual understanding
embeddings and optimizes it to reconstruct the input image with a
self-supervised reconstruction loss, thereby realigning understanding and
generation. Despite its simplicity, RecA is broadly applicable: across
autoregressive, masked-autoregressive, and diffusion-based UMMs, it
consistently improves generation and editing fidelity. With only 27 GPU-hours,
post-training with RecA substantially improves image generation performance on
GenEval (0.73rightarrow0.90) and DPGBench (80.93rightarrow88.15), while
also boosting editing benchmarks (ImgEdit 3.38rightarrow3.75, GEdit
6.94rightarrow7.25). Notably, RecA surpasses much larger open-source models
and applies broadly across diverse UMM architectures, establishing it as an
efficient and general post-training alignment strategy for UMMs