PandaGPT: Единая модель для выполнения всех инструкций
PandaGPT: One Model To Instruction-Follow Them All
May 25, 2023
Авторы: Yixuan Su, Tian Lan, Huayang Li, Jialu Xu, Yan Wang, Deng Cai
cs.AI
Аннотация
Мы представляем PandaGPT — подход, позволяющий расширить возможности крупных языковых моделей за счет визуальных и аудиоинструкций. Наши пилотные эксперименты показывают, что PandaGPT способен выполнять сложные задачи, такие как генерация детальных описаний изображений, создание историй, вдохновленных видео, и ответы на вопросы, связанные с аудио. Более интересно то, что PandaGPT может одновременно обрабатывать мультимодальные входные данные и естественным образом объединять их семантику. Например, PandaGPT может связывать, как объекты выглядят на изображении/видео и как они звучат в аудио. Для этого PandaGPT объединяет мультимодальные энкодеры из ImageBind и крупные языковые модели из Vicuna. Примечательно, что для обучения PandaGPT требуются только выровненные пары изображение-текст. Благодаря мощным возможностям ImageBind встраивать данные из различных модальностей в одно пространство, PandaGPT демонстрирует эмерджентные, то есть zero-shot, кросс-модальные поведенческие паттерны для данных, отличных от изображений и текста (например, видео, аудио, данные глубины, тепловые и IMU). Мы надеемся, что PandaGPT станет первым шагом на пути к созданию ИИ общего назначения (AGI), способного воспринимать и понимать входные данные из различных модальностей целостно, как это делают люди. Страница нашего проекта доступна по адресу https://panda-gpt.github.io/.
English
We present PandaGPT, an approach to emPower large lANguage moDels with visual
and Auditory instruction-following capabilities. Our pilot experiments show
that PandaGPT can perform complex tasks such as detailed image description
generation, writing stories inspired by videos, and answering questions about
audios. More interestingly, PandaGPT can take multimodal inputs simultaneously
and compose their semantics naturally. For example, PandaGPT can connect how
objects look in an image/video and how they sound in an audio. To do so,
PandaGPT combines the multimodal encoders from ImageBind and the large language
models from Vicuna. Notably, only aligned image-text pairs are required for the
training of PandaGPT. Thanks to the strong capability of ImageBind in embedding
data from different modalities into the same space, PandaGPT displays emergent,
i.e. zero-shot, cross-modal behaviors for data other than image and text (e.g.,
video, audio, depth, thermal, and IMU). We hope that PandaGPT serves as an
initial step toward building AGI that can perceive and understand inputs in
different modalities holistically, as we humans do. Our project page is at
https://panda-gpt.github.io/.