Могут ли понимание и генерация действительно приносить пользу друг другу — или просто сосуществовать?
Can Understanding and Generation Truly Benefit Together -- or Just Coexist?
September 11, 2025
Авторы: Zhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Zhendong Wang, Hao Liu, Bin Lin, Hao Li, Xue Xu, Xinyan Xiao, Jingdong Wang, Haifeng Wang, Li Yuan
cs.AI
Аннотация
В данной статье мы представляем новую концепцию через призму автоэнкодера: понимание как кодировщик (I2T), который сжимает изображения в текст, и генерация как декодировщик (T2I), который восстанавливает изображения из этого текста. Используя точность реконструкции как единую цель обучения, мы обеспечиваем согласованный двунаправленный поток информации между процессами понимания и генерации, что приводит к взаимному улучшению. Для реализации этого мы предлагаем UAE — новый фреймворк для унифицированного мультимодального обучения. Мы начинаем с предварительного обучения декодировщика на больших наборах данных с длинными контекстными описаниями изображений, чтобы захватить детализированные семантические и сложные пространственные отношения. Затем мы предлагаем Unified-GRPO с использованием обучения с подкреплением (RL), которое включает три этапа: (1) Фаза "холодного старта" для мягкой инициализации как кодировщика, так и декодировщика с использованием семантической потери реконструкции; (2) "Генерация для понимания", где кодировщик обучается генерировать информативные описания, которые максимизируют качество реконструкции декодировщика, улучшая его визуальное понимание; (3) "Понимание для генерации", где декодировщик дорабатывается для реконструкции из этих описаний, что заставляет его использовать каждую деталь и улучшает его способность следовать длинным контекстным инструкциям и точность генерации. Для оценки мы вводим Unified-Bench — первый бенчмарк, разработанный для оценки степени унификации UMMs. В области мультимодального обучения возникает удивительный "момент озарения": по мере прогресса RL кодировщик автономно создает более детализированные описания, в то время как декодировщик одновременно демонстрирует глубокую способность понимать эти сложные описания, что приводит к реконструкциям поразительной точности.
English
In this paper, we introduce an insightful paradigm through the Auto-Encoder
lens-understanding as the encoder (I2T) that compresses images into text, and
generation as the decoder (T2I) that reconstructs images from that text. Using
reconstruction fidelity as the unified training objective, we enforce the
coherent bidirectional information flow between the understanding and
generation processes, bringing mutual gains. To implement this, we propose UAE,
a novel framework for unified multimodal learning. We begin by pre-training the
decoder with large-scale long-context image captions to capture fine-grained
semantic and complex spatial relationships. We then propose Unified-GRPO via
reinforcement learning (RL), which covers three stages: (1) A cold-start phase
to gently initialize both encoder and decoder with a semantic reconstruction
loss; (2) Generation for Understanding, where the encoder is trained to
generate informative captions that maximize the decoder's reconstruction
quality, enhancing its visual understanding; (3) Understanding for Generation,
where the decoder is refined to reconstruct from these captions, forcing it to
leverage every detail and improving its long-context instruction following and
generation fidelity. For evaluation, we introduce Unified-Bench, the first
benchmark tailored to assess the degree of unification of the UMMs. A
surprising "aha moment" arises within the multimodal learning domain: as RL
progresses, the encoder autonomously produces more descriptive captions, while
the decoder simultaneously demonstrates a profound ability to understand these
intricate descriptions, resulting in reconstructions of striking fidelity.