ChatPaper.aiChatPaper

A Compreensão e a Geração Podem Realmente Beneficiar-se Mutuamente -- ou Apenas Coexistir?

Can Understanding and Generation Truly Benefit Together -- or Just Coexist?

September 11, 2025
Autores: Zhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Zhendong Wang, Hao Liu, Bin Lin, Hao Li, Xue Xu, Xinyan Xiao, Jingdong Wang, Haifeng Wang, Li Yuan
cs.AI

Resumo

Neste artigo, introduzimos um paradigma perspicaz através da lente do Auto-Encoder: a compreensão como o codificador (I2T) que comprime imagens em texto, e a geração como o decodificador (T2I) que reconstrói imagens a partir desse texto. Utilizando a fidelidade de reconstrução como o objetivo de treinamento unificado, impomos um fluxo bidirecional coerente de informações entre os processos de compreensão e geração, trazendo ganhos mútuos. Para implementar isso, propomos o UAE, uma nova estrutura para aprendizado multimodal unificado. Começamos pré-treinando o decodificador com legendas de imagens de contexto longo em grande escala para capturar relações semânticas detalhadas e complexas relações espaciais. Em seguida, propomos o Unified-GRPO via aprendizado por reforço (RL), que abrange três estágios: (1) Uma fase de inicialização para inicializar suavemente tanto o codificador quanto o decodificador com uma perda de reconstrução semântica; (2) Geração para Compreensão, onde o codificador é treinado para gerar legendas informativas que maximizam a qualidade de reconstrução do decodificador, aprimorando sua compreensão visual; (3) Compreensão para Geração, onde o decodificador é refinado para reconstruir a partir dessas legendas, forçando-o a aproveitar cada detalhe e melhorando sua capacidade de seguir instruções de contexto longo e a fidelidade de geração. Para avaliação, introduzimos o Unified-Bench, o primeiro benchmark projetado para avaliar o grau de unificação dos UMMs. Um momento surpreendente de "insight" surge no domínio do aprendizado multimodal: à medida que o RL avança, o codificador produz autonomamente legendas mais descritivas, enquanto o decodificador demonstra simultaneamente uma profunda capacidade de compreender essas descrições intrincadas, resultando em reconstruções de fidelidade impressionante.
English
In this paper, we introduce an insightful paradigm through the Auto-Encoder lens-understanding as the encoder (I2T) that compresses images into text, and generation as the decoder (T2I) that reconstructs images from that text. Using reconstruction fidelity as the unified training objective, we enforce the coherent bidirectional information flow between the understanding and generation processes, bringing mutual gains. To implement this, we propose UAE, a novel framework for unified multimodal learning. We begin by pre-training the decoder with large-scale long-context image captions to capture fine-grained semantic and complex spatial relationships. We then propose Unified-GRPO via reinforcement learning (RL), which covers three stages: (1) A cold-start phase to gently initialize both encoder and decoder with a semantic reconstruction loss; (2) Generation for Understanding, where the encoder is trained to generate informative captions that maximize the decoder's reconstruction quality, enhancing its visual understanding; (3) Understanding for Generation, where the decoder is refined to reconstruct from these captions, forcing it to leverage every detail and improving its long-context instruction following and generation fidelity. For evaluation, we introduce Unified-Bench, the first benchmark tailored to assess the degree of unification of the UMMs. A surprising "aha moment" arises within the multimodal learning domain: as RL progresses, the encoder autonomously produces more descriptive captions, while the decoder simultaneously demonstrates a profound ability to understand these intricate descriptions, resulting in reconstructions of striking fidelity.
PDF262September 12, 2025