ChatPaper.aiChatPaper

통합 멀티모달 모델에서 다중 표현 생성을 통한 생성 기반 이해력 향상

Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

January 29, 2026
저자: Zihan Su, Hongyang Wei, Kangrui Cen, Yong Wang, Guanhua Chen, Chun Yuan, Xiangxiang Chu
cs.AI

초록

통합 멀티모달 모델(UMMs)은 시각적 이해와 생성을 단일 프레임워크 내에 통합합니다. 이들의 궁극적인 목표는 이해와 생성이 상호 강화되는 순환 구조를 만드는 것입니다. 최근 사후 훈련 방법론이 이해 능력을 활용해 생성 성능을 향상시키는 데 성공했으나, 생성 능력을 활용해 이해 능력을 개선하는 반대 방향의 연구는 여전히 미개척 분야로 남아 있습니다. 본 연구에서는 간단하면서도 효과적인 아키텍처 비의존적 사후 훈련 방법인 UniMRG(통합 다중 표현 생성)을 제안합니다. UniMRG는 보조 생성 작업을 도입하여 UMMs의 이해 능력을 향상시킵니다. 구체적으로 UMMs가 표준 시각 이해 목표와 함께 입력 이미지의 내재적 표현인 픽셀(재구성), 깊이(기하학), 분할(구조)을 생성하도록 훈련합니다. 이러한 다양한 표현을 종합함으로써 UMMs는 외관, 공간 관계, 구조적 배치에 관한 상호 보완적 정보를 포착합니다. 그 결과 UMMs는 시각 입력에 대해 더 깊고 포괄적인 이해를 발전시킵니다. 다양한 UMM 아키텍처에 대한 폭넓은 실험을 통해 본 방법이 세밀한 인식 성능을 현저히 향상시키고, 환각 현상을 줄이며, 공간 이해력을 개선하는 동시에 생성 능력도 함께 향상시킴을 입증했습니다.
English
Unified Multimodal Models (UMMs) integrate both visual understanding and generation within a single framework. Their ultimate aspiration is to create a cycle where understanding and generation mutually reinforce each other. While recent post-training methods have successfully leveraged understanding to enhance generation, the reverse direction of utilizing generation to improve understanding remains largely unexplored. In this work, we propose UniMRG (Unified Multi-Representation Generation), a simple yet effective architecture-agnostic post-training method. UniMRG enhances the understanding capabilities of UMMs by incorporating auxiliary generation tasks. Specifically, we train UMMs to generate multiple intrinsic representations of input images, namely pixel (reconstruction), depth (geometry), and segmentation (structure), alongside standard visual understanding objectives. By synthesizing these diverse representations, UMMs capture complementary information regarding appearance, spatial relations, and structural layout. Consequently, UMMs develop a deeper and more comprehensive understanding of visual inputs. Extensive experiments across diverse UMM architectures demonstrate that our method notably enhances fine-grained perception, reduces hallucinations, and improves spatial understanding, while simultaneously boosting generation capabilities.
PDF34January 31, 2026