ChatPaper.aiChatPaper

PandaGPT: Ein Modell für alle Befehlsfolgeaufgaben

PandaGPT: One Model To Instruction-Follow Them All

May 25, 2023
Autoren: Yixuan Su, Tian Lan, Huayang Li, Jialu Xu, Yan Wang, Deng Cai
cs.AI

Zusammenfassung

Wir präsentieren PandaGPT, einen Ansatz, um große Sprachmodelle mit visuellen und auditiven Anweisungsfolge-Fähigkeiten auszustatten. Unsere Pilotexperimente zeigen, dass PandaGPT komplexe Aufgaben wie die Erstellung detaillierter Bildbeschreibungen, das Schreiben von Geschichten, die durch Videos inspiriert sind, und das Beantworten von Fragen zu Audiodateien bewältigen kann. Interessanterweise kann PandaGPT multimodale Eingaben gleichzeitig verarbeiten und deren Semantik natürlich kombinieren. Beispielsweise kann PandaGPT verbinden, wie Objekte in einem Bild/Video aussehen und wie sie in einem Audio klingen. Um dies zu erreichen, kombiniert PandaGPT die multimodalen Encoder von ImageBind und die großen Sprachmodelle von Vicuna. Bemerkenswert ist, dass für das Training von PandaGPT nur ausgerichtete Bild-Text-Paare benötigt werden. Dank der starken Fähigkeit von ImageBind, Daten aus verschiedenen Modalitäten in denselben Raum einzubetten, zeigt PandaGPT emergente, d.h. Zero-Shot, cross-modale Verhaltensweisen für Daten außer Bild und Text (z.B. Video, Audio, Tiefe, Thermik und IMU). Wir hoffen, dass PandaGPT als erster Schritt hin zur Entwicklung einer AGI dient, die Eingaben in verschiedenen Modalitäten ganzheitlich wahrnehmen und verstehen kann, so wie wir Menschen es tun. Unsere Projektseite finden Sie unter https://panda-gpt.github.io/.
English
We present PandaGPT, an approach to emPower large lANguage moDels with visual and Auditory instruction-following capabilities. Our pilot experiments show that PandaGPT can perform complex tasks such as detailed image description generation, writing stories inspired by videos, and answering questions about audios. More interestingly, PandaGPT can take multimodal inputs simultaneously and compose their semantics naturally. For example, PandaGPT can connect how objects look in an image/video and how they sound in an audio. To do so, PandaGPT combines the multimodal encoders from ImageBind and the large language models from Vicuna. Notably, only aligned image-text pairs are required for the training of PandaGPT. Thanks to the strong capability of ImageBind in embedding data from different modalities into the same space, PandaGPT displays emergent, i.e. zero-shot, cross-modal behaviors for data other than image and text (e.g., video, audio, depth, thermal, and IMU). We hope that PandaGPT serves as an initial step toward building AGI that can perceive and understand inputs in different modalities holistically, as we humans do. Our project page is at https://panda-gpt.github.io/.
PDF31December 15, 2024