La generazione potenzia la comprensione nei modelli multimodali unificati attraverso la generazione multi-rappresentazionale

Abstract

I Modelli Multimodali Unificati (UMM) integrano sia la comprensione che la generazione visiva all'interno di un unico framework. La loro aspirazione ultima è creare un ciclo in cui comprensione e generazione si rafforzino reciprocamente. Sebbene recenti metodi di post-addestramento abbiano sfruttato con successo la comprensione per potenziare la generazione, la direzione inversa, ovvero l'utilizzo della generazione per migliorare la comprensione, rimane in gran parte inesplorata. In questo lavoro, proponiamo UniMRG (Generazione di Multi-Rappresentazioni Unificate), un metodo di post-addestramento semplice ma efficace, indipendente dall'architettura. UniMRG migliora le capacità di comprensione degli UMM incorporando task di generazione ausiliari. Nello specifico, addestriamo gli UMM a generare multiple rappresentazioni intrinseche delle immagini in input, ovvero i pixel (ricostruzione), la profondità (geometria) e la segmentazione (struttura), affiancando questi compiti agli obiettivi standard di comprensione visiva. Sintetizzando queste rappresentazioni diverse, gli UMM catturano informazioni complementari riguardanti l'aspetto, le relazioni spaziali e la disposizione strutturale. Di conseguenza, gli UMM sviluppano una comprensione più profonda e completa degli input visivi. Esperimenti estensivi condotti su diverse architetture di UMM dimostrano che il nostro metodo migliora notevolmente la percezione fine-grana, riduce le allucinazioni e migliora la comprensione spaziale, potenziando simultaneamente le capacità di generazione.

English

Unified Multimodal Models (UMMs) integrate both visual understanding and generation within a single framework. Their ultimate aspiration is to create a cycle where understanding and generation mutually reinforce each other. While recent post-training methods have successfully leveraged understanding to enhance generation, the reverse direction of utilizing generation to improve understanding remains largely unexplored. In this work, we propose UniMRG (Unified Multi-Representation Generation), a simple yet effective architecture-agnostic post-training method. UniMRG enhances the understanding capabilities of UMMs by incorporating auxiliary generation tasks. Specifically, we train UMMs to generate multiple intrinsic representations of input images, namely pixel (reconstruction), depth (geometry), and segmentation (structure), alongside standard visual understanding objectives. By synthesizing these diverse representations, UMMs capture complementary information regarding appearance, spatial relations, and structural layout. Consequently, UMMs develop a deeper and more comprehensive understanding of visual inputs. Extensive experiments across diverse UMM architectures demonstrate that our method notably enhances fine-grained perception, reduces hallucinations, and improves spatial understanding, while simultaneously boosting generation capabilities.

La generazione potenzia la comprensione nei modelli multimodali unificati attraverso la generazione multi-rappresentazionale

Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

Abstract

Support