Janus : Découplage de l'encodage visuel pour une compréhension et une génération multimodales unifiées
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
October 17, 2024
Auteurs: Chengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo
cs.AI
Résumé
Dans cet article, nous présentons Janus, un cadre autorégressif qui unifie la compréhension et la génération multimodales. Les recherches antérieures reposent souvent sur un seul encodeur visuel pour les deux tâches, tel que Chameleon. Cependant, en raison des niveaux différents de granularité de l'information requis par la compréhension et la génération multimodales, cette approche peut entraîner des performances sous-optimales, en particulier dans la compréhension multimodale. Pour résoudre ce problème, nous avons dissocié l'encodage visuel en voies distinctes, tout en exploitant une architecture de transformateur unifiée pour le traitement. La dissociation non seulement résout le conflit entre les rôles de l'encodeur visuel dans la compréhension et la génération, mais renforce également la flexibilité du cadre. Par exemple, les composants de compréhension et de génération multimodales peuvent sélectionner indépendamment leurs méthodes d'encodage les plus adaptées. Les expériences montrent que Janus surpasse le modèle unifié précédent et égale ou dépasse les performances des modèles spécifiques à la tâche. La simplicité, la grande flexibilité et l'efficacité de Janus en font un candidat solide pour les modèles multimodaux unifiés de nouvelle génération.
English
In this paper, we introduce Janus, an autoregressive framework that unifies
multimodal understanding and generation. Prior research often relies on a
single visual encoder for both tasks, such as Chameleon. However, due to the
differing levels of information granularity required by multimodal
understanding and generation, this approach can lead to suboptimal performance,
particularly in multimodal understanding. To address this issue, we decouple
visual encoding into separate pathways, while still leveraging a single,
unified transformer architecture for processing. The decoupling not only
alleviates the conflict between the visual encoder's roles in understanding and
generation, but also enhances the framework's flexibility. For instance, both
the multimodal understanding and generation components can independently select
their most suitable encoding methods. Experiments show that Janus surpasses
previous unified model and matches or exceeds the performance of task-specific
models. The simplicity, high flexibility, and effectiveness of Janus make it a
strong candidate for next-generation unified multimodal models.Summary
AI-Generated Summary