Janus: Desacoplar la Codificación Visual para una Comprensión y Generación Multimodal Unificadas
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
October 17, 2024
Autores: Chengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo
cs.AI
Resumen
En este artículo, presentamos Janus, un marco autoregresivo que unifica la comprensión y generación multimodal. La investigación previa a menudo se basa en un único codificador visual para ambas tareas, como Chameleon. Sin embargo, debido a los diferentes niveles de granularidad de la información requeridos por la comprensión y generación multimodal, este enfoque puede llevar a un rendimiento subóptimo, especialmente en la comprensión multimodal. Para abordar este problema, desacoplamos la codificación visual en vías separadas, mientras seguimos aprovechando una arquitectura de transformer unificada para el procesamiento. El desacoplamiento no solo alivia el conflicto entre los roles del codificador visual en la comprensión y generación, sino que también mejora la flexibilidad del marco. Por ejemplo, tanto los componentes de comprensión multimodal como de generación pueden seleccionar de forma independiente sus métodos de codificación más adecuados. Los experimentos muestran que Janus supera al modelo unificado anterior y iguala o supera el rendimiento de los modelos específicos de tarea. La simplicidad, alta flexibilidad y efectividad de Janus lo convierten en un fuerte candidato para modelos multimodales unificados de próxima generación.
English
In this paper, we introduce Janus, an autoregressive framework that unifies
multimodal understanding and generation. Prior research often relies on a
single visual encoder for both tasks, such as Chameleon. However, due to the
differing levels of information granularity required by multimodal
understanding and generation, this approach can lead to suboptimal performance,
particularly in multimodal understanding. To address this issue, we decouple
visual encoding into separate pathways, while still leveraging a single,
unified transformer architecture for processing. The decoupling not only
alleviates the conflict between the visual encoder's roles in understanding and
generation, but also enhances the framework's flexibility. For instance, both
the multimodal understanding and generation components can independently select
their most suitable encoding methods. Experiments show that Janus surpasses
previous unified model and matches or exceeds the performance of task-specific
models. The simplicity, high flexibility, and effectiveness of Janus make it a
strong candidate for next-generation unified multimodal models.Summary
AI-Generated Summary