Янус: Разделение визуального кодирования для объединенного мультимодального понимания и генерации
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
October 17, 2024
Авторы: Chengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo
cs.AI
Аннотация
В данной статье мы представляем Janus - авторегрессивную структуру, объединяющую мультимодальное понимание и генерацию. Предыдущие исследования часто полагались на один визуальный кодировщик для обеих задач, например, Chameleon. Однако из-за различного уровня детализации информации, необходимой для мультимодального понимания и генерации, такой подход может привести к субоптимальной производительности, особенно в мультимодальном понимании. Для решения этой проблемы мы разделяем визуальное кодирование на отдельные пути, сохраняя при этом единую трансформерную архитектуру для обработки. Разделение не только устраняет конфликт между ролями визуального кодировщика в понимании и генерации, но и повышает гибкость структуры. Например, компоненты мультимодального понимания и генерации могут независимо выбирать наиболее подходящие методы кодирования. Эксперименты показывают, что Janus превосходит предыдущую унифицированную модель и соответствует или превосходит производительность моделей, ориентированных на конкретные задачи. Простота, высокая гибкость и эффективность Janus делают его перспективным кандидатом для унифицированных мультимодальных моделей следующего поколения.
English
In this paper, we introduce Janus, an autoregressive framework that unifies
multimodal understanding and generation. Prior research often relies on a
single visual encoder for both tasks, such as Chameleon. However, due to the
differing levels of information granularity required by multimodal
understanding and generation, this approach can lead to suboptimal performance,
particularly in multimodal understanding. To address this issue, we decouple
visual encoding into separate pathways, while still leveraging a single,
unified transformer architecture for processing. The decoupling not only
alleviates the conflict between the visual encoder's roles in understanding and
generation, but also enhances the framework's flexibility. For instance, both
the multimodal understanding and generation components can independently select
their most suitable encoding methods. Experiments show that Janus surpasses
previous unified model and matches or exceeds the performance of task-specific
models. The simplicity, high flexibility, and effectiveness of Janus make it a
strong candidate for next-generation unified multimodal models.Summary
AI-Generated Summary