Выравнивание реконструкции улучшает унифицированные мультимодальные модели
Reconstruction Alignment Improves Unified Multimodal Models
September 8, 2025
Авторы: Ji Xie, Trevor Darrell, Luke Zettlemoyer, XuDong Wang
cs.AI
Аннотация
Унифицированные мультимодальные модели (UMM) объединяют визуальное понимание и генерацию в рамках единой архитектуры. Однако традиционное обучение опирается на пары (или последовательности) изображение-текст, где подписи обычно скудны и упускают детализированные визуальные аспекты — даже когда для описания простого изображения используются сотни слов. Мы представляем метод Reconstruction Alignment (RecA), ресурсоэффективный подход пост-обучения, который использует эмбеддинги кодировщика визуального понимания в качестве плотных «текстовых подсказок», обеспечивая богатый контроль без необходимости в подписях. Конкретно, RecA кондиционирует UMM на её собственных эмбеддингах визуального понимания и оптимизирует её для реконструкции входного изображения с использованием самоконтролируемой функции потерь реконструкции, тем самым выравнивая понимание и генерацию. Несмотря на свою простоту, RecA широко применим: для авторегрессивных, маскированных авторегрессивных и диффузионных UMM он последовательно улучшает точность генерации и редактирования. Всего за 27 GPU-часов пост-обучение с RecA значительно повышает качество генерации изображений на GenEval (0.73→0.90) и DPGBench (80.93→88.15), а также улучшает результаты на тестах редактирования (ImgEdit 3.38→3.75, GEdit 6.94→7.25). Примечательно, что RecA превосходит гораздо более крупные открытые модели и применим к разнообразным архитектурам UMM, что делает его эффективной и универсальной стратегией пост-обучения для выравнивания UMM.
English
Unified multimodal models (UMMs) unify visual understanding and generation
within a single architecture. However, conventional training relies on
image-text pairs (or sequences) whose captions are typically sparse and miss
fine-grained visual details--even when they use hundreds of words to describe a
simple image. We introduce Reconstruction Alignment (RecA), a
resource-efficient post-training method that leverages visual understanding
encoder embeddings as dense "text prompts," providing rich supervision without
captions. Concretely, RecA conditions a UMM on its own visual understanding
embeddings and optimizes it to reconstruct the input image with a
self-supervised reconstruction loss, thereby realigning understanding and
generation. Despite its simplicity, RecA is broadly applicable: across
autoregressive, masked-autoregressive, and diffusion-based UMMs, it
consistently improves generation and editing fidelity. With only 27 GPU-hours,
post-training with RecA substantially improves image generation performance on
GenEval (0.73rightarrow0.90) and DPGBench (80.93rightarrow88.15), while
also boosting editing benchmarks (ImgEdit 3.38rightarrow3.75, GEdit
6.94rightarrow7.25). Notably, RecA surpasses much larger open-source models
and applies broadly across diverse UMM architectures, establishing it as an
efficient and general post-training alignment strategy for UMMs