ChatPaper.aiChatPaper

Generierung verbessert das Verständnis in vereinheitlichten multimodalen Modellen durch Multi-Repräsentations-Generierung

Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

January 29, 2026
papers.authors: Zihan Su, Hongyang Wei, Kangrui Cen, Yong Wang, Guanhua Chen, Chun Yuan, Xiangxiang Chu
cs.AI

papers.abstract

Vereinheitlichte multimodale Modelle (UMMs) integrieren sowohl visuelles Verständnis als auch Generierung innerhalb eines einzigen Frameworks. Ihr ultimatives Bestreben ist es, einen Kreislauf zu schaffen, in dem Verständnis und Generierung sich gegenseitig verstärken. Während neuere Post-Training-Methoden erfolgreich Verständnis genutzt haben, um die Generierung zu verbessern, bleibt die umgekehrte Richtung – die Nutzung von Generierung zur Verbesserung des Verständnisses – weitgehend unerforscht. In dieser Arbeit schlagen wir UniMRG (Unified Multi-Representation Generation) vor, eine einfache, aber effektive, architekturunabhängige Post-Training-Methode. UniMRG verbessert die Verständnisfähigkeiten von UMMs durch die Einbindung zusätzlicher Generierungsaufgaben. Konkret trainieren wir UMMs dazu, mehrere intrinsische Repräsentationen von Eingabebildern zu generieren – nämlich Pixel (Rekonstruktion), Tiefe (Geometrie) und Segmentierung (Struktur) – parallel zu standardmäßigen visuellen Verständniszielen. Durch die Synthese dieser diversen Repräsentationen erfassen UMMs komplementäre Informationen bezüglich Erscheinungsbild, räumlicher Beziehungen und struktureller Anordnung. Folglich entwickeln UMMs ein tieferes und umfassenderes Verständnis visueller Eingaben. Umfangreiche Experimente mit verschiedenen UMM-Architekturen zeigen, dass unsere Methode die feinkörnige Wahrnehmung deutlich verbessert, Halluzinationen reduziert und das räumliche Verständnis verbessert, während gleichzeitig die Generierungsfähigkeiten gesteigert werden.
English
Unified Multimodal Models (UMMs) integrate both visual understanding and generation within a single framework. Their ultimate aspiration is to create a cycle where understanding and generation mutually reinforce each other. While recent post-training methods have successfully leveraged understanding to enhance generation, the reverse direction of utilizing generation to improve understanding remains largely unexplored. In this work, we propose UniMRG (Unified Multi-Representation Generation), a simple yet effective architecture-agnostic post-training method. UniMRG enhances the understanding capabilities of UMMs by incorporating auxiliary generation tasks. Specifically, we train UMMs to generate multiple intrinsic representations of input images, namely pixel (reconstruction), depth (geometry), and segmentation (structure), alongside standard visual understanding objectives. By synthesizing these diverse representations, UMMs capture complementary information regarding appearance, spatial relations, and structural layout. Consequently, UMMs develop a deeper and more comprehensive understanding of visual inputs. Extensive experiments across diverse UMM architectures demonstrate that our method notably enhances fine-grained perception, reduces hallucinations, and improves spatial understanding, while simultaneously boosting generation capabilities.
PDF34January 31, 2026