ChatPaper.aiChatPaper

Генерация улучшает понимание в унифицированных мультимодальных моделях посредством многопредставленческой генерации

Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

January 29, 2026
Авторы: Zihan Su, Hongyang Wei, Kangrui Cen, Yong Wang, Guanhua Chen, Chun Yuan, Xiangxiang Chu
cs.AI

Аннотация

Унифицированные мультимодальные модели (UMM) интегрируют как визуальное понимание, так и генерацию в единую архитектуру. Их конечная цель — создать цикл, в котором понимание и генерация взаимно усиливают друг друга. В то время как современные методы пост-обучения успешно используют понимание для улучшения генерации, обратное направление — использование генерации для улучшения понимания — остаётся в значительной степени неисследованным. В данной работе мы предлагаем UniMRG (Unified Multi-Representation Generation) — простой, но эффективный метод пост-обучения, не зависящий от конкретной архитектуры. UniMRG улучшает способности UMM к пониманию за счёт включения вспомогательных задач генерации. В частности, мы обучаем UMM генерировать несколько внутренних представлений входных изображений, а именно: пиксельное (реконструкция), глубины (геометрия) и сегментации (структура) — наряду со стандартными задачами визуального понимания. Синтезируя эти разнообразные представления, UMM усваивают комплементарную информацию о внешнем виде, пространственных отношениях и структурной организации. В результате UMM формируют более глубокое и всестороннее понимание визуальных входных данных. Многочисленные эксперименты на различных архитектурах UMM демонстрируют, что наш метод существенно улучшает детализированное восприятие, снижает галлюцинации и улучшает пространственное понимание, одновременно усиливая генеративные возможности.
English
Unified Multimodal Models (UMMs) integrate both visual understanding and generation within a single framework. Their ultimate aspiration is to create a cycle where understanding and generation mutually reinforce each other. While recent post-training methods have successfully leveraged understanding to enhance generation, the reverse direction of utilizing generation to improve understanding remains largely unexplored. In this work, we propose UniMRG (Unified Multi-Representation Generation), a simple yet effective architecture-agnostic post-training method. UniMRG enhances the understanding capabilities of UMMs by incorporating auxiliary generation tasks. Specifically, we train UMMs to generate multiple intrinsic representations of input images, namely pixel (reconstruction), depth (geometry), and segmentation (structure), alongside standard visual understanding objectives. By synthesizing these diverse representations, UMMs capture complementary information regarding appearance, spatial relations, and structural layout. Consequently, UMMs develop a deeper and more comprehensive understanding of visual inputs. Extensive experiments across diverse UMM architectures demonstrate that our method notably enhances fine-grained perception, reduces hallucinations, and improves spatial understanding, while simultaneously boosting generation capabilities.
PDF34January 31, 2026