La compréhension et la génération peuvent-elles véritablement bénéficier l'une de l'autre -- ou simplement coexister ?
Can Understanding and Generation Truly Benefit Together -- or Just Coexist?
September 11, 2025
papers.authors: Zhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Zhendong Wang, Hao Liu, Bin Lin, Hao Li, Xue Xu, Xinyan Xiao, Jingdong Wang, Haifeng Wang, Li Yuan
cs.AI
papers.abstract
Dans cet article, nous introduisons un paradigme novateur à travers le prisme de l'Auto-Encodeur : la compréhension comme encodeur (I2T) qui compresse les images en texte, et la génération comme décodeur (T2I) qui reconstruit les images à partir de ce texte. En utilisant la fidélité de reconstruction comme objectif d'apprentissage unifié, nous renforçons le flux d'information bidirectionnel cohérent entre les processus de compréhension et de génération, apportant des gains mutuels. Pour mettre en œuvre cela, nous proposons UAE, un nouveau cadre pour l'apprentissage multimodal unifié. Nous commençons par pré-entraîner le décodeur avec des légendes d'images à contexte long et à grande échelle pour capturer les relations sémantiques fines et les relations spatiales complexes. Nous proposons ensuite Unified-GRPO via l'apprentissage par renforcement (RL), qui couvre trois étapes : (1) Une phase de démarrage à froid pour initialiser doucement à la fois l'encodeur et le décodeur avec une perte de reconstruction sémantique ; (2) Génération pour la Compréhension, où l'encodeur est entraîné à générer des légendes informatives qui maximisent la qualité de reconstruction du décodeur, améliorant ainsi sa compréhension visuelle ; (3) Compréhension pour la Génération, où le décodeur est affiné pour reconstruire à partir de ces légendes, l'obligeant à exploiter chaque détail et améliorant sa capacité à suivre les instructions à long contexte et la fidélité de génération. Pour l'évaluation, nous introduisons Unified-Bench, le premier benchmark conçu pour évaluer le degré d'unification des UMMs. Un moment de révélation surprenant émerge dans le domaine de l'apprentissage multimodal : à mesure que le RL progresse, l'encodeur produit de manière autonome des légendes plus descriptives, tandis que le décodeur démontre simultanément une capacité profonde à comprendre ces descriptions complexes, aboutissant à des reconstructions d'une fidélité frappante.
English
In this paper, we introduce an insightful paradigm through the Auto-Encoder
lens-understanding as the encoder (I2T) that compresses images into text, and
generation as the decoder (T2I) that reconstructs images from that text. Using
reconstruction fidelity as the unified training objective, we enforce the
coherent bidirectional information flow between the understanding and
generation processes, bringing mutual gains. To implement this, we propose UAE,
a novel framework for unified multimodal learning. We begin by pre-training the
decoder with large-scale long-context image captions to capture fine-grained
semantic and complex spatial relationships. We then propose Unified-GRPO via
reinforcement learning (RL), which covers three stages: (1) A cold-start phase
to gently initialize both encoder and decoder with a semantic reconstruction
loss; (2) Generation for Understanding, where the encoder is trained to
generate informative captions that maximize the decoder's reconstruction
quality, enhancing its visual understanding; (3) Understanding for Generation,
where the decoder is refined to reconstruct from these captions, forcing it to
leverage every detail and improving its long-context instruction following and
generation fidelity. For evaluation, we introduce Unified-Bench, the first
benchmark tailored to assess the degree of unification of the UMMs. A
surprising "aha moment" arises within the multimodal learning domain: as RL
progresses, the encoder autonomously produces more descriptive captions, while
the decoder simultaneously demonstrates a profound ability to understand these
intricate descriptions, resulting in reconstructions of striking fidelity.