Janus: Decodifica visiva disaccoppiata per una comprensione e generazione multimodale unificate

Abstract

In questo articolo, presentiamo Janus, un framework autoregressivo che unifica la comprensione e la generazione multimodale. La ricerca precedente spesso si basa su un singolo codificatore visivo per entrambi i compiti, come Chameleon. Tuttavia, a causa dei diversi livelli di granularità dell'informazione richiesti dalla comprensione e generazione multimodale, questo approccio può portare a prestazioni non ottimali, in particolare nella comprensione multimodale. Per affrontare questo problema, suddividiamo la codifica visiva in percorsi separati, pur sfruttando un'unica architettura trasformatore unificata per l'elaborazione. La suddivisione non solo allevia il conflitto tra i ruoli del codificatore visivo nella comprensione e nella generazione, ma potenzia anche la flessibilità del framework. Ad esempio, sia i componenti di comprensione multimodale che di generazione possono selezionare in modo indipendente i loro metodi di codifica più adatti. Gli esperimenti mostrano che Janus supera il modello unificato precedente e eguaglia o supera le prestazioni dei modelli specifici per compiti. La semplicità, l'alta flessibilità e l'efficacia di Janus lo rendono un forte candidato per i modelli multimodali unificati di prossima generazione.

English

In this paper, we introduce Janus, an autoregressive framework that unifies multimodal understanding and generation. Prior research often relies on a single visual encoder for both tasks, such as Chameleon. However, due to the differing levels of information granularity required by multimodal understanding and generation, this approach can lead to suboptimal performance, particularly in multimodal understanding. To address this issue, we decouple visual encoding into separate pathways, while still leveraging a single, unified transformer architecture for processing. The decoupling not only alleviates the conflict between the visual encoder's roles in understanding and generation, but also enhances the framework's flexibility. For instance, both the multimodal understanding and generation components can independently select their most suitable encoding methods. Experiments show that Janus surpasses previous unified model and matches or exceeds the performance of task-specific models. The simplicity, high flexibility, and effectiveness of Janus make it a strong candidate for next-generation unified multimodal models.

Janus: Decodifica visiva disaccoppiata per una comprensione e generazione multimodale unificate

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Abstract

Summary

Support

Support