PandaGPT: Un Modello Unico per Seguire Tutte le Istruzioni
PandaGPT: One Model To Instruction-Follow Them All
May 25, 2023
Autori: Yixuan Su, Tian Lan, Huayang Li, Jialu Xu, Yan Wang, Deng Cai
cs.AI
Abstract
Presentiamo PandaGPT, un approccio per potenziare i grandi modelli linguistici con capacità di seguire istruzioni visive e uditive. I nostri esperimenti pilota dimostrano che PandaGPT è in grado di eseguire compiti complessi come la generazione di descrizioni dettagliate di immagini, la scrittura di storie ispirate da video e la risposta a domande su contenuti audio. Ancora più interessante, PandaGPT può ricevere input multimodali simultaneamente e comporre le loro semantiche in modo naturale. Ad esempio, PandaGPT può collegare l'aspetto degli oggetti in un'immagine/video con il loro suono in un audio. Per fare ciò, PandaGPT combina gli encoder multimodali di ImageBind e i grandi modelli linguistici di Vicuna. È importante notare che per l'addestramento di PandaGPT sono necessarie solo coppie immagine-testo allineate. Grazie alla forte capacità di ImageBind di incorporare dati da diverse modalità nello stesso spazio, PandaGPT mostra comportamenti emergenti, cioè zero-shot, cross-modali per dati diversi da immagini e testo (ad esempio, video, audio, profondità, termico e IMU). Speriamo che PandaGPT rappresenti un primo passo verso la costruzione di un'AGI in grado di percepire e comprendere input in diverse modalità in modo olistico, come facciamo noi esseri umani. La pagina del nostro progetto è disponibile all'indirizzo https://panda-gpt.github.io/.
English
We present PandaGPT, an approach to emPower large lANguage moDels with visual
and Auditory instruction-following capabilities. Our pilot experiments show
that PandaGPT can perform complex tasks such as detailed image description
generation, writing stories inspired by videos, and answering questions about
audios. More interestingly, PandaGPT can take multimodal inputs simultaneously
and compose their semantics naturally. For example, PandaGPT can connect how
objects look in an image/video and how they sound in an audio. To do so,
PandaGPT combines the multimodal encoders from ImageBind and the large language
models from Vicuna. Notably, only aligned image-text pairs are required for the
training of PandaGPT. Thanks to the strong capability of ImageBind in embedding
data from different modalities into the same space, PandaGPT displays emergent,
i.e. zero-shot, cross-modal behaviors for data other than image and text (e.g.,
video, audio, depth, thermal, and IMU). We hope that PandaGPT serves as an
initial step toward building AGI that can perceive and understand inputs in
different modalities holistically, as we humans do. Our project page is at
https://panda-gpt.github.io/.