ChatPaper.aiChatPaper

L'allineamento nella ricostruzione migliora i modelli multimodali unificati.

Reconstruction Alignment Improves Unified Multimodal Models

September 8, 2025
Autori: Ji Xie, Trevor Darrell, Luke Zettlemoyer, XuDong Wang
cs.AI

Abstract

I modelli multimodali unificati (UMM) integrano la comprensione e la generazione visiva all'interno di un'unica architettura. Tuttavia, l'addestramento convenzionale si basa su coppie (o sequenze) di immagini e testi le cui descrizioni sono tipicamente scarne e prive di dettagli visivi fini, anche quando utilizzano centinaia di parole per descrivere una semplice immagine. Introduciamo la Ricostruzione Allineata (RecA), un metodo post-addestramento efficiente in termini di risorse che sfrutta gli embedding del codificatore di comprensione visiva come "prompt testuali" densi, fornendo una supervisione ricca senza l'uso di didascalie. Nello specifico, RecA condiziona un UMM sui propri embedding di comprensione visiva e lo ottimizza per ricostruire l'immagine di input con una perdita di ricostruzione auto-supervisionata, riallineando così comprensione e generazione. Nonostante la sua semplicità, RecA è ampiamente applicabile: su UMM basati su autoregressione, autoregressione mascherata e diffusione, migliora costantemente la fedeltà di generazione e modifica. Con sole 27 ore di GPU, il post-addestramento con RecA migliora significativamente le prestazioni di generazione di immagini su GenEval (0.73→0.90) e DPGBench (80.93→88.15), mentre aumenta anche i benchmark di modifica (ImgEdit 3.38→3.75, GEdit 6.94→7.25). È degno di nota che RecA supera modelli open-source molto più grandi e si applica ampiamente a diverse architetture UMM, stabilendosi come una strategia di allineamento post-addestramento efficiente e generale per gli UMM.
English
Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich supervision without captions. Concretely, RecA conditions a UMM on its own visual understanding embeddings and optimizes it to reconstruct the input image with a self-supervised reconstruction loss, thereby realigning understanding and generation. Despite its simplicity, RecA is broadly applicable: across autoregressive, masked-autoregressive, and diffusion-based UMMs, it consistently improves generation and editing fidelity. With only 27 GPU-hours, post-training with RecA substantially improves image generation performance on GenEval (0.73rightarrow0.90) and DPGBench (80.93rightarrow88.15), while also boosting editing benchmarks (ImgEdit 3.38rightarrow3.75, GEdit 6.94rightarrow7.25). Notably, RecA surpasses much larger open-source models and applies broadly across diverse UMM architectures, establishing it as an efficient and general post-training alignment strategy for UMMs
PDF392September 10, 2025