이해와 생성은 진정으로 상호 이익을 얻을 수 있는가, 아니면 단순히 공존하는 것에 그치는가?
Can Understanding and Generation Truly Benefit Together -- or Just Coexist?
September 11, 2025
저자: Zhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Zhendong Wang, Hao Liu, Bin Lin, Hao Li, Xue Xu, Xinyan Xiao, Jingdong Wang, Haifeng Wang, Li Yuan
cs.AI
초록
본 논문에서는 오토인코더의 관점에서 통찰력 있는 패러다임을 소개한다. 이미지를 텍스트로 압축하는 인코더(I2T)로서의 이해와, 그 텍스트로부터 이미지를 재구성하는 디코더(T2I)로서의 생성 과정을 제시한다. 재구성 정확도를 통합 학습 목표로 사용함으로써, 이해와 생성 과정 간의 일관된 양방향 정보 흐름을 강화하고 상호 이득을 가져온다. 이를 구현하기 위해, 우리는 통합 멀티모달 학습을 위한 새로운 프레임워크인 UAE를 제안한다. 먼저, 디코더를 대규모 장문 이미지 캡션 데이터로 사전 학습하여 세밀한 의미론적 관계와 복잡한 공간적 관계를 포착한다. 그런 다음 강화 학습(RL)을 통한 Unified-GRPO를 제안하는데, 이는 세 단계로 구성된다: (1) 인코더와 디코더를 의미론적 재구성 손실로 부드럽게 초기화하는 콜드 스타트 단계; (2) 이해를 위한 생성 단계로, 인코더가 디코더의 재구성 품질을 극대화하는 정보성 있는 캡션을 생성하도록 학습하여 시각적 이해 능력을 향상시킴; (3) 생성을 위한 이해 단계로, 디코더가 이러한 캡션으로부터 재구성하도록 개선하여 모든 세부 사항을 활용하고 장문 지시 따르기 및 생성 정확도를 향상시킴. 평가를 위해, 우리는 UMM의 통합 정도를 평가하기 위해 맞춤화된 첫 번째 벤치마크인 Unified-Bench를 도입한다. 멀티모달 학습 영역에서 놀라운 통찰이 발견되었는데, RL이 진행됨에 따라 인코더는 더욱 설명적인 캡션을 자율적으로 생성하고, 동시에 디코더는 이러한 복잡한 설명을 깊이 이해하여 놀라운 정확도의 재구성을 보여준다.
English
In this paper, we introduce an insightful paradigm through the Auto-Encoder
lens-understanding as the encoder (I2T) that compresses images into text, and
generation as the decoder (T2I) that reconstructs images from that text. Using
reconstruction fidelity as the unified training objective, we enforce the
coherent bidirectional information flow between the understanding and
generation processes, bringing mutual gains. To implement this, we propose UAE,
a novel framework for unified multimodal learning. We begin by pre-training the
decoder with large-scale long-context image captions to capture fine-grained
semantic and complex spatial relationships. We then propose Unified-GRPO via
reinforcement learning (RL), which covers three stages: (1) A cold-start phase
to gently initialize both encoder and decoder with a semantic reconstruction
loss; (2) Generation for Understanding, where the encoder is trained to
generate informative captions that maximize the decoder's reconstruction
quality, enhancing its visual understanding; (3) Understanding for Generation,
where the decoder is refined to reconstruct from these captions, forcing it to
leverage every detail and improving its long-context instruction following and
generation fidelity. For evaluation, we introduce Unified-Bench, the first
benchmark tailored to assess the degree of unification of the UMMs. A
surprising "aha moment" arises within the multimodal learning domain: as RL
progresses, the encoder autonomously produces more descriptive captions, while
the decoder simultaneously demonstrates a profound ability to understand these
intricate descriptions, resulting in reconstructions of striking fidelity.