PandaGPT: Eén Model Om Alle Instructies Op Te Volgen

Samenvatting

We presenteren PandaGPT, een benadering om grote taalmodellen te emPoweren met visuele en auditieve instructievolgingscapaciteiten. Onze pilotexperimenten tonen aan dat PandaGPT complexe taken kan uitvoeren, zoals het genereren van gedetailleerde beeldbeschrijvingen, het schrijven van verhalen geïnspireerd door video's, en het beantwoorden van vragen over audio's. Interessanter is dat PandaGPT multimodale inputs gelijktijdig kan verwerken en hun semantiek op een natuurlijke manier kan samenstellen. Zo kan PandaGPT bijvoorbeeld verbinden hoe objecten eruitzien in een beeld/video en hoe ze klinken in een audio. Om dit te bereiken, combineert PandaGPT de multimodale encoders van ImageBind en de grote taalmodellen van Vicuna. Opmerkelijk is dat alleen uitgelijnde beeld-tekstparen nodig zijn voor de training van PandaGPT. Dankzij de sterke capaciteit van ImageBind om gegevens van verschillende modaliteiten in dezelfde ruimte in te bedden, vertoont PandaGPT emergent, d.w.z. zero-shot, cross-modale gedragingen voor gegevens anders dan beeld en tekst (bijv. video, audio, diepte, thermisch en IMU). We hopen dat PandaGPT een eerste stap is naar het bouwen van AGI die inputs in verschillende modaliteiten holistisch kan waarnemen en begrijpen, zoals wij mensen dat doen. Onze projectpagina is te vinden op https://panda-gpt.github.io/.

English

We present PandaGPT, an approach to emPower large lANguage moDels with visual and Auditory instruction-following capabilities. Our pilot experiments show that PandaGPT can perform complex tasks such as detailed image description generation, writing stories inspired by videos, and answering questions about audios. More interestingly, PandaGPT can take multimodal inputs simultaneously and compose their semantics naturally. For example, PandaGPT can connect how objects look in an image/video and how they sound in an audio. To do so, PandaGPT combines the multimodal encoders from ImageBind and the large language models from Vicuna. Notably, only aligned image-text pairs are required for the training of PandaGPT. Thanks to the strong capability of ImageBind in embedding data from different modalities into the same space, PandaGPT displays emergent, i.e. zero-shot, cross-modal behaviors for data other than image and text (e.g., video, audio, depth, thermal, and IMU). We hope that PandaGPT serves as an initial step toward building AGI that can perceive and understand inputs in different modalities holistically, as we humans do. Our project page is at https://panda-gpt.github.io/.

PandaGPT: Eén Model Om Alle Instructies Op Te Volgen

PandaGPT: One Model To Instruction-Follow Them All

Samenvatting

Support