A Compreensão e a Geração Podem Realmente Beneficiar-se Mutuamente -- ou Apenas Coexistir?
Can Understanding and Generation Truly Benefit Together -- or Just Coexist?
September 11, 2025
Autores: Zhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Zhendong Wang, Hao Liu, Bin Lin, Hao Li, Xue Xu, Xinyan Xiao, Jingdong Wang, Haifeng Wang, Li Yuan
cs.AI
Resumo
Neste artigo, introduzimos um paradigma perspicaz através da lente do Auto-Encoder: a compreensão como o codificador (I2T) que comprime imagens em texto, e a geração como o decodificador (T2I) que reconstrói imagens a partir desse texto. Utilizando a fidelidade de reconstrução como o objetivo de treinamento unificado, impomos um fluxo bidirecional coerente de informações entre os processos de compreensão e geração, trazendo ganhos mútuos. Para implementar isso, propomos o UAE, uma nova estrutura para aprendizado multimodal unificado. Começamos pré-treinando o decodificador com legendas de imagens de contexto longo em grande escala para capturar relações semânticas detalhadas e complexas relações espaciais. Em seguida, propomos o Unified-GRPO via aprendizado por reforço (RL), que abrange três estágios: (1) Uma fase de inicialização para inicializar suavemente tanto o codificador quanto o decodificador com uma perda de reconstrução semântica; (2) Geração para Compreensão, onde o codificador é treinado para gerar legendas informativas que maximizam a qualidade de reconstrução do decodificador, aprimorando sua compreensão visual; (3) Compreensão para Geração, onde o decodificador é refinado para reconstruir a partir dessas legendas, forçando-o a aproveitar cada detalhe e melhorando sua capacidade de seguir instruções de contexto longo e a fidelidade de geração. Para avaliação, introduzimos o Unified-Bench, o primeiro benchmark projetado para avaliar o grau de unificação dos UMMs. Um momento surpreendente de "insight" surge no domínio do aprendizado multimodal: à medida que o RL avança, o codificador produz autonomamente legendas mais descritivas, enquanto o decodificador demonstra simultaneamente uma profunda capacidade de compreender essas descrições intrincadas, resultando em reconstruções de fidelidade impressionante.
English
In this paper, we introduce an insightful paradigm through the Auto-Encoder
lens-understanding as the encoder (I2T) that compresses images into text, and
generation as the decoder (T2I) that reconstructs images from that text. Using
reconstruction fidelity as the unified training objective, we enforce the
coherent bidirectional information flow between the understanding and
generation processes, bringing mutual gains. To implement this, we propose UAE,
a novel framework for unified multimodal learning. We begin by pre-training the
decoder with large-scale long-context image captions to capture fine-grained
semantic and complex spatial relationships. We then propose Unified-GRPO via
reinforcement learning (RL), which covers three stages: (1) A cold-start phase
to gently initialize both encoder and decoder with a semantic reconstruction
loss; (2) Generation for Understanding, where the encoder is trained to
generate informative captions that maximize the decoder's reconstruction
quality, enhancing its visual understanding; (3) Understanding for Generation,
where the decoder is refined to reconstruct from these captions, forcing it to
leverage every detail and improving its long-context instruction following and
generation fidelity. For evaluation, we introduce Unified-Bench, the first
benchmark tailored to assess the degree of unification of the UMMs. A
surprising "aha moment" arises within the multimodal learning domain: as RL
progresses, the encoder autonomously produces more descriptive captions, while
the decoder simultaneously demonstrates a profound ability to understand these
intricate descriptions, resulting in reconstructions of striking fidelity.