PandaGPT: Un Modelo Único para Seguir Instrucciones en Todos los Ámbitos
PandaGPT: One Model To Instruction-Follow Them All
May 25, 2023
Autores: Yixuan Su, Tian Lan, Huayang Li, Jialu Xu, Yan Wang, Deng Cai
cs.AI
Resumen
Presentamos PandaGPT, un enfoque para dotar a los grandes modelos de lenguaje con capacidades de seguimiento de instrucciones visuales y auditivas. Nuestros experimentos piloto muestran que PandaGPT puede realizar tareas complejas, como la generación de descripciones detalladas de imágenes, la escritura de historias inspiradas en videos y la respuesta a preguntas sobre audios. Más interesante aún, PandaGPT puede recibir entradas multimodales simultáneamente y componer sus semánticas de manera natural. Por ejemplo, PandaGPT puede conectar cómo se ven los objetos en una imagen/video y cómo suenan en un audio. Para lograrlo, PandaGPT combina los codificadores multimodales de ImageBind y los grandes modelos de lenguaje de Vicuna. Cabe destacar que solo se requieren pares de imagen-texto alineados para el entrenamiento de PandaGPT. Gracias a la fuerte capacidad de ImageBind para incrustar datos de diferentes modalidades en el mismo espacio, PandaGPT exhibe comportamientos emergentes, es decir, de cero-shot, para datos que no son imagen y texto (por ejemplo, video, audio, profundidad, térmico e IMU). Esperamos que PandaGPT sirva como un primer paso hacia la construcción de una AGI que pueda percibir y comprender entradas en diferentes modalidades de manera holística, como lo hacemos los humanos. Nuestra página del proyecto se encuentra en https://panda-gpt.github.io/.
English
We present PandaGPT, an approach to emPower large lANguage moDels with visual
and Auditory instruction-following capabilities. Our pilot experiments show
that PandaGPT can perform complex tasks such as detailed image description
generation, writing stories inspired by videos, and answering questions about
audios. More interestingly, PandaGPT can take multimodal inputs simultaneously
and compose their semantics naturally. For example, PandaGPT can connect how
objects look in an image/video and how they sound in an audio. To do so,
PandaGPT combines the multimodal encoders from ImageBind and the large language
models from Vicuna. Notably, only aligned image-text pairs are required for the
training of PandaGPT. Thanks to the strong capability of ImageBind in embedding
data from different modalities into the same space, PandaGPT displays emergent,
i.e. zero-shot, cross-modal behaviors for data other than image and text (e.g.,
video, audio, depth, thermal, and IMU). We hope that PandaGPT serves as an
initial step toward building AGI that can perceive and understand inputs in
different modalities holistically, as we humans do. Our project page is at
https://panda-gpt.github.io/.