ChatPaper.aiChatPaper

Janus: Entkopplung der visuellen Codierung für einheitliches multimodales Verständnis und Generierung

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

October 17, 2024
Autoren: Chengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo
cs.AI

Zusammenfassung

In diesem Paper stellen wir Janus vor, ein autoregressives Framework, das multimodales Verständnis und Generierung vereint. Frühere Forschung stützt sich oft auf einen einzigen visuellen Encoder für beide Aufgaben, wie z.B. Chameleon. Aufgrund der unterschiedlichen Informationsgranularität, die für multimodales Verständnis und Generierung erforderlich ist, kann dieser Ansatz jedoch zu suboptimaler Leistung führen, insbesondere beim multimodalen Verständnis. Um dieses Problem anzugehen, entkoppeln wir die visuelle Kodierung in separate Pfade, während wir weiterhin eine einzige, vereinheitlichte Transformer-Architektur für die Verarbeitung nutzen. Die Entkopplung lindert nicht nur den Konflikt zwischen den Rollen des visuellen Encoders beim Verständnis und bei der Generierung, sondern erhöht auch die Flexibilität des Frameworks. Beispielsweise können sowohl die multimodalen Verständnis- als auch die Generierungskomponenten unabhängig voneinander ihre am besten geeigneten Kodierungsmethoden auswählen. Experimente zeigen, dass Janus das bisherige vereinheitlichte Modell übertrifft und die Leistung von aufgabenspezifischen Modellen erreicht oder übertrifft. Die Einfachheit, hohe Flexibilität und Effektivität von Janus machen es zu einem vielversprechenden Kandidaten für vereinheitlichte multimodale Modelle der nächsten Generation.
English
In this paper, we introduce Janus, an autoregressive framework that unifies multimodal understanding and generation. Prior research often relies on a single visual encoder for both tasks, such as Chameleon. However, due to the differing levels of information granularity required by multimodal understanding and generation, this approach can lead to suboptimal performance, particularly in multimodal understanding. To address this issue, we decouple visual encoding into separate pathways, while still leveraging a single, unified transformer architecture for processing. The decoupling not only alleviates the conflict between the visual encoder's roles in understanding and generation, but also enhances the framework's flexibility. For instance, both the multimodal understanding and generation components can independently select their most suitable encoding methods. Experiments show that Janus surpasses previous unified model and matches or exceeds the performance of task-specific models. The simplicity, high flexibility, and effectiveness of Janus make it a strong candidate for next-generation unified multimodal models.
PDF354November 16, 2024