Janus: Desacoplamento da Codificação Visual para Compreensão e Geração Multimodal Unificadas
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
October 17, 2024
Autores: Chengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo
cs.AI
Resumo
Neste artigo, apresentamos Janus, um framework autoregressivo que unifica a compreensão e geração multimodal. Pesquisas anteriores frequentemente dependem de um único codificador visual para ambas as tarefas, como o Chameleon. No entanto, devido aos diferentes níveis de granularidade da informação necessários para a compreensão e geração multimodal, essa abordagem pode levar a um desempenho subótimo, especialmente na compreensão multimodal. Para lidar com esse problema, desacoplamos a codificação visual em caminhos separados, enquanto ainda aproveitamos uma única arquitetura de transformer unificada para processamento. O desacoplamento não apenas alivia o conflito entre os papéis do codificador visual na compreensão e geração, mas também aprimora a flexibilidade do framework. Por exemplo, tanto os componentes de compreensão quanto de geração multimodal podem selecionar independentemente seus métodos de codificação mais adequados. Experimentos mostram que Janus supera o modelo unificado anterior e iguala ou excede o desempenho de modelos específicos de tarefas. A simplicidade, alta flexibilidade e eficácia de Janus o tornam um forte candidato para modelos multimodais unificados de próxima geração.
English
In this paper, we introduce Janus, an autoregressive framework that unifies
multimodal understanding and generation. Prior research often relies on a
single visual encoder for both tasks, such as Chameleon. However, due to the
differing levels of information granularity required by multimodal
understanding and generation, this approach can lead to suboptimal performance,
particularly in multimodal understanding. To address this issue, we decouple
visual encoding into separate pathways, while still leveraging a single,
unified transformer architecture for processing. The decoupling not only
alleviates the conflict between the visual encoder's roles in understanding and
generation, but also enhances the framework's flexibility. For instance, both
the multimodal understanding and generation components can independently select
their most suitable encoding methods. Experiments show that Janus surpasses
previous unified model and matches or exceeds the performance of task-specific
models. The simplicity, high flexibility, and effectiveness of Janus make it a
strong candidate for next-generation unified multimodal models.Summary
AI-Generated Summary