PandaGPT: Um Modelo Para Seguir Todas as Instruções
PandaGPT: One Model To Instruction-Follow Them All
May 25, 2023
Autores: Yixuan Su, Tian Lan, Huayang Li, Jialu Xu, Yan Wang, Deng Cai
cs.AI
Resumo
Apresentamos o PandaGPT, uma abordagem para capacitar grandes modelos de linguagem com habilidades de seguir instruções visuais e auditivas. Nossos experimentos preliminares mostram que o PandaGPT pode realizar tarefas complexas, como a geração de descrições detalhadas de imagens, a criação de histórias inspiradas em vídeos e a resposta a perguntas sobre áudios. Mais interessante ainda, o PandaGPT pode receber entradas multimodais simultaneamente e compor suas semânticas de forma natural. Por exemplo, o PandaGPT pode conectar a aparência de objetos em uma imagem/vídeo com o som que eles emitem em um áudio. Para isso, o PandaGPT combina os codificadores multimodais do ImageBind e os grandes modelos de linguagem do Vicuna. Vale destacar que apenas pares de imagem-texto alinhados são necessários para o treinamento do PandaGPT. Graças à forte capacidade do ImageBind em incorporar dados de diferentes modalidades no mesmo espaço, o PandaGPT exibe comportamentos emergentes, ou seja, zero-shot, para dados além de imagem e texto (por exemplo, vídeo, áudio, profundidade, térmico e IMU). Esperamos que o PandaGPT sirva como um passo inicial na construção de uma IAG (Inteligência Artificial Geral) que possa perceber e entender entradas em diferentes modalidades de forma holística, como nós, humanos, fazemos. Nossa página do projeto está em https://panda-gpt.github.io/.
English
We present PandaGPT, an approach to emPower large lANguage moDels with visual
and Auditory instruction-following capabilities. Our pilot experiments show
that PandaGPT can perform complex tasks such as detailed image description
generation, writing stories inspired by videos, and answering questions about
audios. More interestingly, PandaGPT can take multimodal inputs simultaneously
and compose their semantics naturally. For example, PandaGPT can connect how
objects look in an image/video and how they sound in an audio. To do so,
PandaGPT combines the multimodal encoders from ImageBind and the large language
models from Vicuna. Notably, only aligned image-text pairs are required for the
training of PandaGPT. Thanks to the strong capability of ImageBind in embedding
data from different modalities into the same space, PandaGPT displays emergent,
i.e. zero-shot, cross-modal behaviors for data other than image and text (e.g.,
video, audio, depth, thermal, and IMU). We hope that PandaGPT serves as an
initial step toward building AGI that can perceive and understand inputs in
different modalities holistically, as we humans do. Our project page is at
https://panda-gpt.github.io/.