ChatPaper.aiChatPaper

La comprensione e la generazione possono davvero trarre beneficio reciproco -- o semplicemente coesistere?

Can Understanding and Generation Truly Benefit Together -- or Just Coexist?

September 11, 2025
Autori: Zhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Zhendong Wang, Hao Liu, Bin Lin, Hao Li, Xue Xu, Xinyan Xiao, Jingdong Wang, Haifeng Wang, Li Yuan
cs.AI

Abstract

In questo articolo, introduciamo un paradigma innovativo attraverso la lente dell'Auto-Encoder, dove la comprensione funge da codificatore (I2T) che comprime le immagini in testo, e la generazione agisce come decodificatore (T2I) che ricostruisce le immagini a partire da tale testo. Utilizzando la fedeltà di ricostruzione come obiettivo di addestramento unificato, rafforziamo il flusso bidirezionale coerente di informazioni tra i processi di comprensione e generazione, ottenendo benefici reciproci. Per implementare ciò, proponiamo UAE, un nuovo framework per l'apprendimento multimodale unificato. Iniziamo pre-addestrando il decodificatore con didascalie di immagini a contesto lungo su larga scala, per catturare relazioni semantiche dettagliate e complesse relazioni spaziali. Successivamente, proponiamo Unified-GRPO tramite apprendimento per rinforzo (RL), che copre tre fasi: (1) Una fase di avvio a freddo per inizializzare delicatamente sia il codificatore che il decodificatore con una perdita di ricostruzione semantica; (2) Generazione per la Comprensione, dove il codificatore viene addestrato a generare didascalie informative che massimizzano la qualità di ricostruzione del decodificatore, migliorando la sua comprensione visiva; (3) Comprensione per la Generazione, dove il decodificatore viene affinato per ricostruire a partire da queste didascalie, costringendolo a sfruttare ogni dettaglio e migliorando la sua capacità di seguire istruzioni a contesto lungo e la fedeltà di generazione. Per la valutazione, introduciamo Unified-Bench, il primo benchmark progettato per valutare il grado di unificazione degli UMM. Un sorprendente "momento di intuizione" emerge nel dominio dell'apprendimento multimodale: man mano che l'RL progredisce, il codificatore produce autonomamente didascalie più descrittive, mentre il decodificatore dimostra contemporaneamente una profonda capacità di comprendere queste descrizioni intricate, risultando in ricostruzioni di straordinaria fedeltà.
English
In this paper, we introduce an insightful paradigm through the Auto-Encoder lens-understanding as the encoder (I2T) that compresses images into text, and generation as the decoder (T2I) that reconstructs images from that text. Using reconstruction fidelity as the unified training objective, we enforce the coherent bidirectional information flow between the understanding and generation processes, bringing mutual gains. To implement this, we propose UAE, a novel framework for unified multimodal learning. We begin by pre-training the decoder with large-scale long-context image captions to capture fine-grained semantic and complex spatial relationships. We then propose Unified-GRPO via reinforcement learning (RL), which covers three stages: (1) A cold-start phase to gently initialize both encoder and decoder with a semantic reconstruction loss; (2) Generation for Understanding, where the encoder is trained to generate informative captions that maximize the decoder's reconstruction quality, enhancing its visual understanding; (3) Understanding for Generation, where the decoder is refined to reconstruct from these captions, forcing it to leverage every detail and improving its long-context instruction following and generation fidelity. For evaluation, we introduce Unified-Bench, the first benchmark tailored to assess the degree of unification of the UMMs. A surprising "aha moment" arises within the multimodal learning domain: as RL progresses, the encoder autonomously produces more descriptive captions, while the decoder simultaneously demonstrates a profound ability to understand these intricate descriptions, resulting in reconstructions of striking fidelity.
PDF333September 12, 2025