PandaGPT: Ein Modell für alle Befehlsfolgeaufgaben
PandaGPT: One Model To Instruction-Follow Them All
May 25, 2023
Autoren: Yixuan Su, Tian Lan, Huayang Li, Jialu Xu, Yan Wang, Deng Cai
cs.AI
Zusammenfassung
Wir präsentieren PandaGPT, einen Ansatz, um große Sprachmodelle mit visuellen und auditiven Anweisungsfolge-Fähigkeiten auszustatten. Unsere Pilotexperimente zeigen, dass PandaGPT komplexe Aufgaben wie die Erstellung detaillierter Bildbeschreibungen, das Schreiben von Geschichten, die durch Videos inspiriert sind, und das Beantworten von Fragen zu Audiodateien bewältigen kann. Interessanterweise kann PandaGPT multimodale Eingaben gleichzeitig verarbeiten und deren Semantik natürlich kombinieren. Beispielsweise kann PandaGPT verbinden, wie Objekte in einem Bild/Video aussehen und wie sie in einem Audio klingen. Um dies zu erreichen, kombiniert PandaGPT die multimodalen Encoder von ImageBind und die großen Sprachmodelle von Vicuna. Bemerkenswert ist, dass für das Training von PandaGPT nur ausgerichtete Bild-Text-Paare benötigt werden. Dank der starken Fähigkeit von ImageBind, Daten aus verschiedenen Modalitäten in denselben Raum einzubetten, zeigt PandaGPT emergente, d.h. Zero-Shot, cross-modale Verhaltensweisen für Daten außer Bild und Text (z.B. Video, Audio, Tiefe, Thermik und IMU). Wir hoffen, dass PandaGPT als erster Schritt hin zur Entwicklung einer AGI dient, die Eingaben in verschiedenen Modalitäten ganzheitlich wahrnehmen und verstehen kann, so wie wir Menschen es tun. Unsere Projektseite finden Sie unter https://panda-gpt.github.io/.
English
We present PandaGPT, an approach to emPower large lANguage moDels with visual
and Auditory instruction-following capabilities. Our pilot experiments show
that PandaGPT can perform complex tasks such as detailed image description
generation, writing stories inspired by videos, and answering questions about
audios. More interestingly, PandaGPT can take multimodal inputs simultaneously
and compose their semantics naturally. For example, PandaGPT can connect how
objects look in an image/video and how they sound in an audio. To do so,
PandaGPT combines the multimodal encoders from ImageBind and the large language
models from Vicuna. Notably, only aligned image-text pairs are required for the
training of PandaGPT. Thanks to the strong capability of ImageBind in embedding
data from different modalities into the same space, PandaGPT displays emergent,
i.e. zero-shot, cross-modal behaviors for data other than image and text (e.g.,
video, audio, depth, thermal, and IMU). We hope that PandaGPT serves as an
initial step toward building AGI that can perceive and understand inputs in
different modalities holistically, as we humans do. Our project page is at
https://panda-gpt.github.io/.