Die Rekonstruktionsausrichtung verbessert vereinheitlichte multimodale Modelle.
Reconstruction Alignment Improves Unified Multimodal Models
September 8, 2025
papers.authors: Ji Xie, Trevor Darrell, Luke Zettlemoyer, XuDong Wang
cs.AI
papers.abstract
Unified Multimodal Models (UMMs) vereinen visuelles Verständnis und Generierung innerhalb einer einzigen Architektur. Herkömmliches Training stützt sich jedoch auf Bild-Text-Paare (oder -Sequenzen), deren Beschreibungen typischerweise spärlich sind und feinkörnige visuelle Details vermissen – selbst wenn sie Hunderte von Wörtern verwenden, um ein einfaches Bild zu beschreiben. Wir stellen Reconstruction Alignment (RecA) vor, eine ressourceneffiziente Nachtrainingsmethode, die Embeddings eines visuellen Verständnis-Encoders als dichte „Text-Prompts“ nutzt und so eine umfassende Supervision ohne Beschriftungen ermöglicht. Konkret konditioniert RecA ein UMM auf seine eigenen visuellen Verständnis-Embeddings und optimiert es, um das Eingabebild mit einem selbstüberwachten Rekonstruktionsverlust zu rekonstruieren, wodurch Verständnis und Generierung neu ausgerichtet werden. Trotz seiner Einfachheit ist RecA breit anwendbar: Bei autoregressiven, maskiert-autoregressiven und diffusionsbasierten UMMs verbessert es durchgängig die Generierungs- und Bearbeitungsqualität. Mit nur 27 GPU-Stunden steigert das Nachtraining mit RecA die Bildgenerierungsleistung auf GenEval (0,73→0,90) und DPGBench (80,93→88,15) erheblich, während es auch Bearbeitungs-Benchmarks verbessert (ImgEdit 3,38→3,75, GEdit 6,94→7,25). Bemerkenswerterweise übertrifft RecA deutlich größere Open-Source-Modelle und ist breit auf diverse UMM-Architekturen anwendbar, was es als effiziente und allgemeine Nachtrainingsstrategie für UMMs etabliert.
English
Unified multimodal models (UMMs) unify visual understanding and generation
within a single architecture. However, conventional training relies on
image-text pairs (or sequences) whose captions are typically sparse and miss
fine-grained visual details--even when they use hundreds of words to describe a
simple image. We introduce Reconstruction Alignment (RecA), a
resource-efficient post-training method that leverages visual understanding
encoder embeddings as dense "text prompts," providing rich supervision without
captions. Concretely, RecA conditions a UMM on its own visual understanding
embeddings and optimizes it to reconstruct the input image with a
self-supervised reconstruction loss, thereby realigning understanding and
generation. Despite its simplicity, RecA is broadly applicable: across
autoregressive, masked-autoregressive, and diffusion-based UMMs, it
consistently improves generation and editing fidelity. With only 27 GPU-hours,
post-training with RecA substantially improves image generation performance on
GenEval (0.73rightarrow0.90) and DPGBench (80.93rightarrow88.15), while
also boosting editing benchmarks (ImgEdit 3.38rightarrow3.75, GEdit
6.94rightarrow7.25). Notably, RecA surpasses much larger open-source models
and applies broadly across diverse UMM architectures, establishing it as an
efficient and general post-training alignment strategy for UMMs