Generatie Vergroot Begrip in Geünificeerde Multimodale Modellen via Multi-Representatie Generatie

Samenvatting

Unified Multimodal Models (UMM's) integreren zowel visueel begrip als generatie binnen één enkel raamwerk. Hun uiteindelijke streven is het creëren van een cyclus waarin begrip en generatie elkaar wederzijds versterken. Hoewel recente post-trainingmethoden met succes begrip hebben benut om generatie te verbeteren, blijft de omgekeerde richting - het gebruik van generatie om begrip te verbeteren - grotendeels onontgonnen. In dit werk stellen we UniMRG (Unified Multi-Representation Generation) voor, een eenvoudige maar effectieve architectuuronafhankelijke post-trainingmethode. UniMRG verbetert de begripscapaciteiten van UMM's door het incorporeren van aanvullende generatietaken. Specifiek trainen we UMM's om meerdere intrinsieke representaties van invoerafbeeldingen te genereren, namelijk pixels (reconstructie), diepte (geometrie) en segmentatie (structuur), naast standaard visuele begripsdoelen. Door deze diverse representaties te synthetiseren, vangen UMM's complementaire informatie op regarding uiterlijk, ruimtelijke relaties en structurele lay-out. Dientengevolge ontwikkelen UMM's een dieper en uitgebreider begrip van visuele invoer. Uitgebreide experimenten met diverse UMM-architecturen tonen aan dat onze methode fijnmazige perceptie aanzienlijk verbetert, hallucinaties vermindert en het ruimtelijk begrip verbetert, terwijl tegelijkertijd de generatiecapaciteiten worden versterkt.

English

Unified Multimodal Models (UMMs) integrate both visual understanding and generation within a single framework. Their ultimate aspiration is to create a cycle where understanding and generation mutually reinforce each other. While recent post-training methods have successfully leveraged understanding to enhance generation, the reverse direction of utilizing generation to improve understanding remains largely unexplored. In this work, we propose UniMRG (Unified Multi-Representation Generation), a simple yet effective architecture-agnostic post-training method. UniMRG enhances the understanding capabilities of UMMs by incorporating auxiliary generation tasks. Specifically, we train UMMs to generate multiple intrinsic representations of input images, namely pixel (reconstruction), depth (geometry), and segmentation (structure), alongside standard visual understanding objectives. By synthesizing these diverse representations, UMMs capture complementary information regarding appearance, spatial relations, and structural layout. Consequently, UMMs develop a deeper and more comprehensive understanding of visual inputs. Extensive experiments across diverse UMM architectures demonstrate that our method notably enhances fine-grained perception, reduces hallucinations, and improves spatial understanding, while simultaneously boosting generation capabilities.

Generatie Vergroot Begrip in Geünificeerde Multimodale Modellen via Multi-Representatie Generatie

Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

Samenvatting

Support