ChatPaper.aiChatPaper

La génération améliore la compréhension dans les modèles multimodaux unifiés via la génération de représentations multiples

Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

January 29, 2026
papers.authors: Zihan Su, Hongyang Wei, Kangrui Cen, Yong Wang, Guanhua Chen, Chun Yuan, Xiangxiang Chu
cs.AI

papers.abstract

Les modèles multimodaux unifiés (UMM) intègrent à la fois la compréhension et la génération visuelles au sein d'un même cadre. Leur aspiration ultime est de créer un cycle où compréhension et génération se renforcent mutuellement. Bien que des méthodes de post-formation récentes aient exploité avec succès la compréhension pour améliorer la génération, la direction inverse consistant à utiliser la génération pour améliorer la compréhension demeure largement inexplorée. Dans ce travail, nous proposons UniMRG (Génération de Représentations Multiples Unifiée), une méthode de post-formation simple mais efficace, indépendante de l'architecture. UniMRG améliore les capacités de compréhension des UMM en intégrant des tâches de génération auxiliaires. Plus précisément, nous entraînons les UMM à générer plusieurs représentations intrinsèques des images d'entrée, à savoir les pixels (reconstruction), la profondeur (géométrie) et la segmentation (structure), parallèlement aux objectifs standards de compréhension visuelle. En synthétisant ces représentations diverses, les UMM capturent des informations complémentaires concernant l'apparence, les relations spatiales et la disposition structurelle. Par conséquent, les UMM développent une compréhension plus profonde et plus complète des entrées visuelles. Des expériences approfondies sur diverses architectures d'UMM démontrent que notre méthode améliore notablement la perception fine, réduit les hallucinations et améliore la compréhension spatiale, tout en renforçant simultanément les capacités de génération.
English
Unified Multimodal Models (UMMs) integrate both visual understanding and generation within a single framework. Their ultimate aspiration is to create a cycle where understanding and generation mutually reinforce each other. While recent post-training methods have successfully leveraged understanding to enhance generation, the reverse direction of utilizing generation to improve understanding remains largely unexplored. In this work, we propose UniMRG (Unified Multi-Representation Generation), a simple yet effective architecture-agnostic post-training method. UniMRG enhances the understanding capabilities of UMMs by incorporating auxiliary generation tasks. Specifically, we train UMMs to generate multiple intrinsic representations of input images, namely pixel (reconstruction), depth (geometry), and segmentation (structure), alongside standard visual understanding objectives. By synthesizing these diverse representations, UMMs capture complementary information regarding appearance, spatial relations, and structural layout. Consequently, UMMs develop a deeper and more comprehensive understanding of visual inputs. Extensive experiments across diverse UMM architectures demonstrate that our method notably enhances fine-grained perception, reduces hallucinations, and improves spatial understanding, while simultaneously boosting generation capabilities.
PDF34January 31, 2026