La Generación Mejora la Comprensión en Modelos Multimodales Unificados mediante la Generación de Múltiples Representaciones
Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation
January 29, 2026
Autores: Zihan Su, Hongyang Wei, Kangrui Cen, Yong Wang, Guanhua Chen, Chun Yuan, Xiangxiang Chu
cs.AI
Resumen
Los Modelos Multimodales Unificados (UMMs) integran tanto la comprensión como la generación visual dentro de un único marco. Su aspiración última es crear un ciclo en el que la comprensión y la generación se refuercen mutuamente. Si bien los métodos recientes de post-entrenamiento han logrado aprovechar la comprensión para mejorar la generación, la dirección inversa de utilizar la generación para mejorar la comprensión sigue siendo en gran medida inexplorada. En este trabajo, proponemos UniMRG (Generación Unificada de Múltiples Representaciones), un método de post-entrenamiento simple pero efectivo, independiente de la arquitectura. UniMRG mejora las capacidades de comprensión de los UMMs mediante la incorporación de tareas de generación auxiliares. Específicamente, entrenamos a los UMMs para generar múltiples representaciones intrínsecas de las imágenes de entrada, a saber, píxeles (reconstrucción), profundidad (geometría) y segmentación (estructura), junto con los objetivos estándar de comprensión visual. Al sintetizar estas diversas representaciones, los UMMs capturan información complementaria sobre la apariencia, las relaciones espaciales y la disposición estructural. En consecuencia, los UMMs desarrollan una comprensión más profunda y completa de las entradas visuales. Experimentos exhaustivos en diversas arquitecturas de UMMs demuestran que nuestro método mejora notablemente la percepción de detalles finos, reduce las alucinaciones y mejora la comprensión espacial, al mismo tiempo que potencia las capacidades de generación.
English
Unified Multimodal Models (UMMs) integrate both visual understanding and generation within a single framework. Their ultimate aspiration is to create a cycle where understanding and generation mutually reinforce each other. While recent post-training methods have successfully leveraged understanding to enhance generation, the reverse direction of utilizing generation to improve understanding remains largely unexplored. In this work, we propose UniMRG (Unified Multi-Representation Generation), a simple yet effective architecture-agnostic post-training method. UniMRG enhances the understanding capabilities of UMMs by incorporating auxiliary generation tasks. Specifically, we train UMMs to generate multiple intrinsic representations of input images, namely pixel (reconstruction), depth (geometry), and segmentation (structure), alongside standard visual understanding objectives. By synthesizing these diverse representations, UMMs capture complementary information regarding appearance, spatial relations, and structural layout. Consequently, UMMs develop a deeper and more comprehensive understanding of visual inputs. Extensive experiments across diverse UMM architectures demonstrate that our method notably enhances fine-grained perception, reduces hallucinations, and improves spatial understanding, while simultaneously boosting generation capabilities.