ChatPaper.aiChatPaper

Reconstructie-uitlijning verbetert verenigde multimodale modellen.

Reconstruction Alignment Improves Unified Multimodal Models

September 8, 2025
Auteurs: Ji Xie, Trevor Darrell, Luke Zettlemoyer, XuDong Wang
cs.AI

Samenvatting

Unified multimodal models (UMMs) verenigen visueel begrip en generatie binnen een enkele architectuur. Traditionele training is echter gebaseerd op afbeelding-tekstparen (of -reeksen) waarvan de bijschriften doorgaans beperkt zijn en fijnmazige visuele details missen—zelfs wanneer ze honderden woorden gebruiken om een eenvoudige afbeelding te beschrijven. Wij introduceren Reconstruction Alignment (RecA), een resource-efficiënte post-trainingsmethode die visueel begrip-encoder-embeddings gebruikt als dichte "tekstprompts," waardoor rijke supervisie wordt geboden zonder bijschriften. Concreet conditioneert RecA een UMM op zijn eigen visueel begrip-embeddings en optimaliseert het om de invoerafbeelding te reconstrueren met een zelfgesuperviseerd reconstructieverlies, waardoor begrip en generatie opnieuw worden uitgelijnd. Ondanks zijn eenvoud is RecA breed toepasbaar: over autoregressieve, masked-autoregressieve en diffusie-gebaseerde UMMs heen verbetert het consistent de generatie- en bewerkingsnauwkeurigheid. Met slechts 27 GPU-uren verbetert post-training met RecA de prestaties van afbeeldingsgeneratie aanzienlijk op GenEval (0.73→0.90) en DPGBench (80.93→88.15), terwijl het ook bewerkingsbenchmarks versterkt (ImgEdit 3.38→3.75, GEdit 6.94→7.25). Opmerkelijk is dat RecA veel grotere open-source modellen overtreft en breed toepasbaar is over diverse UMM-architecturen, wat het vestigt als een efficiënte en algemene post-trainingsuitlijningsstrategie voor UMMs.
English
Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich supervision without captions. Concretely, RecA conditions a UMM on its own visual understanding embeddings and optimizes it to reconstruct the input image with a self-supervised reconstruction loss, thereby realigning understanding and generation. Despite its simplicity, RecA is broadly applicable: across autoregressive, masked-autoregressive, and diffusion-based UMMs, it consistently improves generation and editing fidelity. With only 27 GPU-hours, post-training with RecA substantially improves image generation performance on GenEval (0.73rightarrow0.90) and DPGBench (80.93rightarrow88.15), while also boosting editing benchmarks (ImgEdit 3.38rightarrow3.75, GEdit 6.94rightarrow7.25). Notably, RecA surpasses much larger open-source models and applies broadly across diverse UMM architectures, establishing it as an efficient and general post-training alignment strategy for UMMs
PDF392September 10, 2025