¿Pueden el entendimiento y la generación beneficiarse verdaderamente juntos, o simplemente coexistir?
Can Understanding and Generation Truly Benefit Together -- or Just Coexist?
September 11, 2025
Autores: Zhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Zhendong Wang, Hao Liu, Bin Lin, Hao Li, Xue Xu, Xinyan Xiao, Jingdong Wang, Haifeng Wang, Li Yuan
cs.AI
Resumen
En este artículo, presentamos un paradigma innovador a través de la lente del Auto-Encoder: la comprensión como el codificador (I2T) que comprime imágenes en texto, y la generación como el decodificador (T2I) que reconstruye imágenes a partir de ese texto. Utilizando la fidelidad de reconstrucción como objetivo de entrenamiento unificado, reforzamos el flujo bidireccional coherente de información entre los procesos de comprensión y generación, obteniendo beneficios mutuos. Para implementar esto, proponemos UAE, un marco novedoso para el aprendizaje multimodal unificado. Comenzamos pre-entrenando el decodificador con descripciones de imágenes de contexto largo a gran escala para capturar relaciones semánticas detalladas y espaciales complejas. Luego, proponemos Unified-GRPO mediante aprendizaje por refuerzo (RL), que abarca tres etapas: (1) Una fase de arranque en frío para inicializar suavemente tanto el codificador como el decodificador con una pérdida de reconstrucción semántica; (2) Generación para Comprensión, donde el codificador se entrena para generar descripciones informativas que maximicen la calidad de reconstrucción del decodificador, mejorando su comprensión visual; (3) Comprensión para Generación, donde el decodificador se refina para reconstruir a partir de estas descripciones, obligándolo a aprovechar cada detalle y mejorando su capacidad para seguir instrucciones de contexto largo y su fidelidad de generación. Para la evaluación, presentamos Unified-Bench, el primer punto de referencia diseñado para evaluar el grado de unificación de los UMMs. Un sorprendente "momento de revelación" surge en el dominio del aprendizaje multimodal: a medida que avanza el RL, el codificador produce de manera autónoma descripciones más detalladas, mientras que el decodificador demuestra simultáneamente una profunda capacidad para comprender estas descripciones intrincadas, lo que resulta en reconstrucciones de una fidelidad impresionante.
English
In this paper, we introduce an insightful paradigm through the Auto-Encoder
lens-understanding as the encoder (I2T) that compresses images into text, and
generation as the decoder (T2I) that reconstructs images from that text. Using
reconstruction fidelity as the unified training objective, we enforce the
coherent bidirectional information flow between the understanding and
generation processes, bringing mutual gains. To implement this, we propose UAE,
a novel framework for unified multimodal learning. We begin by pre-training the
decoder with large-scale long-context image captions to capture fine-grained
semantic and complex spatial relationships. We then propose Unified-GRPO via
reinforcement learning (RL), which covers three stages: (1) A cold-start phase
to gently initialize both encoder and decoder with a semantic reconstruction
loss; (2) Generation for Understanding, where the encoder is trained to
generate informative captions that maximize the decoder's reconstruction
quality, enhancing its visual understanding; (3) Understanding for Generation,
where the decoder is refined to reconstruct from these captions, forcing it to
leverage every detail and improving its long-context instruction following and
generation fidelity. For evaluation, we introduce Unified-Bench, the first
benchmark tailored to assess the degree of unification of the UMMs. A
surprising "aha moment" arises within the multimodal learning domain: as RL
progresses, the encoder autonomously produces more descriptive captions, while
the decoder simultaneously demonstrates a profound ability to understand these
intricate descriptions, resulting in reconstructions of striking fidelity.