Die Rekonstruktionsausrichtung verbessert vereinheitlichte multimodale Modelle.

papers.abstract

Unified Multimodal Models (UMMs) vereinen visuelles Verständnis und Generierung innerhalb einer einzigen Architektur. Herkömmliches Training stützt sich jedoch auf Bild-Text-Paare (oder -Sequenzen), deren Beschreibungen typischerweise spärlich sind und feinkörnige visuelle Details vermissen – selbst wenn sie Hunderte von Wörtern verwenden, um ein einfaches Bild zu beschreiben. Wir stellen Reconstruction Alignment (RecA) vor, eine ressourceneffiziente Nachtrainingsmethode, die Embeddings eines visuellen Verständnis-Encoders als dichte „Text-Prompts“ nutzt und so eine umfassende Supervision ohne Beschriftungen ermöglicht. Konkret konditioniert RecA ein UMM auf seine eigenen visuellen Verständnis-Embeddings und optimiert es, um das Eingabebild mit einem selbstüberwachten Rekonstruktionsverlust zu rekonstruieren, wodurch Verständnis und Generierung neu ausgerichtet werden. Trotz seiner Einfachheit ist RecA breit anwendbar: Bei autoregressiven, maskiert-autoregressiven und diffusionsbasierten UMMs verbessert es durchgängig die Generierungs- und Bearbeitungsqualität. Mit nur 27 GPU-Stunden steigert das Nachtraining mit RecA die Bildgenerierungsleistung auf GenEval (0,73→0,90) und DPGBench (80,93→88,15) erheblich, während es auch Bearbeitungs-Benchmarks verbessert (ImgEdit 3,38→3,75, GEdit 6,94→7,25). Bemerkenswerterweise übertrifft RecA deutlich größere Open-Source-Modelle und ist breit auf diverse UMM-Architekturen anwendbar, was es als effiziente und allgemeine Nachtrainingsstrategie für UMMs etabliert.

English

Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich supervision without captions. Concretely, RecA conditions a UMM on its own visual understanding embeddings and optimizes it to reconstruct the input image with a self-supervised reconstruction loss, thereby realigning understanding and generation. Despite its simplicity, RecA is broadly applicable: across autoregressive, masked-autoregressive, and diffusion-based UMMs, it consistently improves generation and editing fidelity. With only 27 GPU-hours, post-training with RecA substantially improves image generation performance on GenEval (0.73rightarrow0.90) and DPGBench (80.93rightarrow88.15), while also boosting editing benchmarks (ImgEdit 3.38rightarrow3.75, GEdit 6.94rightarrow7.25). Notably, RecA surpasses much larger open-source models and applies broadly across diverse UMM architectures, establishing it as an efficient and general post-training alignment strategy for UMMs

Die Rekonstruktionsausrichtung verbessert vereinheitlichte multimodale Modelle.

Reconstruction Alignment Improves Unified Multimodal Models

papers.abstract

Support