Kunnen Begrip en Generatie Werkelijk Samen Voordeel Bieden -- of Slechts Naast Elkaar Bestaan?
Can Understanding and Generation Truly Benefit Together -- or Just Coexist?
September 11, 2025
Auteurs: Zhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Zhendong Wang, Hao Liu, Bin Lin, Hao Li, Xue Xu, Xinyan Xiao, Jingdong Wang, Haifeng Wang, Li Yuan
cs.AI
Samenvatting
In dit artikel introduceren we een inzichtelijk paradigma door de lens van de Auto-Encoder: begrijpen als de encoder (I2T) die afbeeldingen comprimeert naar tekst, en genereren als de decoder (T2I) die afbeeldingen reconstrueert vanuit die tekst. Door reconstructiefideliteit als het verenigde trainingsdoel te gebruiken, dwingen we een coherente bidirectionele informatiestroom af tussen de begrips- en generatieprocessen, wat wederzijdse voordelen oplevert. Om dit te implementeren, stellen we UAE voor, een nieuw raamwerk voor verenigd multimodaal leren. We beginnen met het vooraf trainen van de decoder met grootschalige, lang-context beeldbeschrijvingen om fijnmazige semantische en complexe ruimtelijke relaties vast te leggen. Vervolgens introduceren we Unified-GRPO via reinforcement learning (RL), dat drie fasen omvat: (1) Een koude-startfase om zowel de encoder als de decoder zachtjes te initialiseren met een semantische reconstructieverlies; (2) Genereren voor Begrip, waarbij de encoder wordt getraind om informatieve beschrijvingen te genereren die de reconstructiekwaliteit van de decoder maximaliseren, waardoor het visuele begrip wordt verbeterd; (3) Begrip voor Generatie, waarbij de decoder wordt verfijnd om te reconstrueren vanuit deze beschrijvingen, waardoor deze gedwongen wordt elk detail te benutten en zijn lang-context instructievolging en generatiefideliteit te verbeteren. Voor evaluatie introduceren we Unified-Bench, de eerste benchmark die specifiek is ontworpen om de mate van unificatie van de UMM's te beoordelen. Een verrassend "aha-moment" doet zich voor binnen het domein van multimodaal leren: naarmate de RL vordert, produceert de encoder autonoom meer beschrijvende bijschriften, terwijl de decoder tegelijkertijd een diepgaand vermogen toont om deze ingewikkelde beschrijvingen te begrijpen, wat resulteert in reconstructies van opvallende fideliteit.
English
In this paper, we introduce an insightful paradigm through the Auto-Encoder
lens-understanding as the encoder (I2T) that compresses images into text, and
generation as the decoder (T2I) that reconstructs images from that text. Using
reconstruction fidelity as the unified training objective, we enforce the
coherent bidirectional information flow between the understanding and
generation processes, bringing mutual gains. To implement this, we propose UAE,
a novel framework for unified multimodal learning. We begin by pre-training the
decoder with large-scale long-context image captions to capture fine-grained
semantic and complex spatial relationships. We then propose Unified-GRPO via
reinforcement learning (RL), which covers three stages: (1) A cold-start phase
to gently initialize both encoder and decoder with a semantic reconstruction
loss; (2) Generation for Understanding, where the encoder is trained to
generate informative captions that maximize the decoder's reconstruction
quality, enhancing its visual understanding; (3) Understanding for Generation,
where the decoder is refined to reconstruct from these captions, forcing it to
leverage every detail and improving its long-context instruction following and
generation fidelity. For evaluation, we introduce Unified-Bench, the first
benchmark tailored to assess the degree of unification of the UMMs. A
surprising "aha moment" arises within the multimodal learning domain: as RL
progresses, the encoder autonomously produces more descriptive captions, while
the decoder simultaneously demonstrates a profound ability to understand these
intricate descriptions, resulting in reconstructions of striking fidelity.