ChatPaper.aiChatPaper

PandaGPT : Un modèle unique pour suivre toutes les instructions

PandaGPT: One Model To Instruction-Follow Them All

May 25, 2023
Auteurs: Yixuan Su, Tian Lan, Huayang Li, Jialu Xu, Yan Wang, Deng Cai
cs.AI

Résumé

Nous présentons PandaGPT, une approche visant à doter les grands modèles de langage de capacités à suivre des instructions visuelles et auditives. Nos expériences pilotes montrent que PandaGPT peut accomplir des tâches complexes telles que la génération de descriptions détaillées d'images, l'écriture d'histoires inspirées par des vidéos, et la réponse à des questions concernant des audios. Plus intéressant encore, PandaGPT peut traiter simultanément des entrées multimodales et composer leurs sémantiques de manière naturelle. Par exemple, PandaGPT peut relier l'apparence des objets dans une image/vidéo et leur son dans un audio. Pour ce faire, PandaGPT combine les encodeurs multimodaux d'ImageBind et les grands modèles de langage de Vicuna. Il est à noter que seules des paires image-texte alignées sont nécessaires pour l'entraînement de PandaGPT. Grâce à la forte capacité d'ImageBind à intégrer des données de différentes modalités dans le même espace, PandaGPT présente des comportements émergents, c'est-à-dire zero-shot, pour des données autres que l'image et le texte (par exemple, vidéo, audio, profondeur, thermique et IMU). Nous espérons que PandaGPT constitue une première étape vers la construction d'une AGI capable de percevoir et de comprendre les entrées dans différentes modalités de manière holistique, comme nous le faisons en tant qu'humains. Notre page de projet est disponible à l'adresse https://panda-gpt.github.io/.
English
We present PandaGPT, an approach to emPower large lANguage moDels with visual and Auditory instruction-following capabilities. Our pilot experiments show that PandaGPT can perform complex tasks such as detailed image description generation, writing stories inspired by videos, and answering questions about audios. More interestingly, PandaGPT can take multimodal inputs simultaneously and compose their semantics naturally. For example, PandaGPT can connect how objects look in an image/video and how they sound in an audio. To do so, PandaGPT combines the multimodal encoders from ImageBind and the large language models from Vicuna. Notably, only aligned image-text pairs are required for the training of PandaGPT. Thanks to the strong capability of ImageBind in embedding data from different modalities into the same space, PandaGPT displays emergent, i.e. zero-shot, cross-modal behaviors for data other than image and text (e.g., video, audio, depth, thermal, and IMU). We hope that PandaGPT serves as an initial step toward building AGI that can perceive and understand inputs in different modalities holistically, as we humans do. Our project page is at https://panda-gpt.github.io/.
PDF31December 15, 2024