Können Verstehen und Generierung wirklich voneinander profitieren – oder nur koexistieren?
Can Understanding and Generation Truly Benefit Together -- or Just Coexist?
September 11, 2025
papers.authors: Zhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Zhendong Wang, Hao Liu, Bin Lin, Hao Li, Xue Xu, Xinyan Xiao, Jingdong Wang, Haifeng Wang, Li Yuan
cs.AI
papers.abstract
In diesem Artikel führen wir ein aufschlussreiches Paradigma durch die Linse des Auto-Encoders ein – Verstehen als Encoder (I2T), der Bilder in Text komprimiert, und Generierung als Decoder (T2I), der Bilder aus diesem Text rekonstruiert. Indem wir die Rekonstruktionsgenauigkeit als einheitliches Trainingsziel verwenden, erzwingen wir einen kohärenten bidirektionalen Informationsfluss zwischen den Prozessen des Verstehens und der Generierung, was gegenseitige Vorteile bringt. Um dies zu implementieren, schlagen wir UAE vor, ein neuartiges Framework für einheitliches multimodales Lernen. Wir beginnen mit dem Pre-Training des Decoders mit groß angelegten, langen Bildbeschreibungen, um feinkörnige semantische und komplexe räumliche Beziehungen zu erfassen. Anschließend schlagen wir Unified-GRPO mittels Reinforcement Learning (RL) vor, das drei Phasen umfasst: (1) Eine Cold-Start-Phase, um sowohl Encoder als auch Decoder sanft mit einem semantischen Rekonstruktionsverlust zu initialisieren; (2) Generierung für Verstehen, bei der der Encoder trainiert wird, informative Beschreibungen zu generieren, die die Rekonstruktionsqualität des Decoders maximieren und damit dessen visuelles Verständnis verbessern; (3) Verstehen für Generierung, bei der der Decoder verfeinert wird, um aus diesen Beschreibungen zu rekonstruieren, wodurch er gezwungen wird, jedes Detail zu nutzen und seine Fähigkeit zur Befolgung langer Kontextanweisungen sowie seine Generierungsgenauigkeit zu verbessern. Zur Bewertung führen wir Unified-Bench ein, den ersten Benchmark, der speziell darauf ausgelegt ist, den Grad der Vereinheitlichung der UMMs zu bewerten. Ein überraschender „Aha-Moment“ ergibt sich im Bereich des multimodalen Lernens: Mit fortschreitendem RL produziert der Encoder autonom beschreibendere Texte, während der Decoder gleichzeitig eine tiefgreifende Fähigkeit zeigt, diese komplexen Beschreibungen zu verstehen, was zu Rekonstruktionen von beeindruckender Genauigkeit führt.
English
In this paper, we introduce an insightful paradigm through the Auto-Encoder
lens-understanding as the encoder (I2T) that compresses images into text, and
generation as the decoder (T2I) that reconstructs images from that text. Using
reconstruction fidelity as the unified training objective, we enforce the
coherent bidirectional information flow between the understanding and
generation processes, bringing mutual gains. To implement this, we propose UAE,
a novel framework for unified multimodal learning. We begin by pre-training the
decoder with large-scale long-context image captions to capture fine-grained
semantic and complex spatial relationships. We then propose Unified-GRPO via
reinforcement learning (RL), which covers three stages: (1) A cold-start phase
to gently initialize both encoder and decoder with a semantic reconstruction
loss; (2) Generation for Understanding, where the encoder is trained to
generate informative captions that maximize the decoder's reconstruction
quality, enhancing its visual understanding; (3) Understanding for Generation,
where the decoder is refined to reconstruct from these captions, forcing it to
leverage every detail and improving its long-context instruction following and
generation fidelity. For evaluation, we introduce Unified-Bench, the first
benchmark tailored to assess the degree of unification of the UMMs. A
surprising "aha moment" arises within the multimodal learning domain: as RL
progresses, the encoder autonomously produces more descriptive captions, while
the decoder simultaneously demonstrates a profound ability to understand these
intricate descriptions, resulting in reconstructions of striking fidelity.