TextBind: Seguimiento de instrucciones multimodales intercaladas en múltiples turnos
TextBind: Multi-turn Interleaved Multimodal Instruction-following
September 14, 2023
Autores: Huayang Li, Siheng Li, Deng Cai, Longyue Wang, Lemao Liu, Taro Watanabe, Yujiu Yang, Shuming Shi
cs.AI
Resumen
Los modelos de lenguaje de gran escala con capacidades de seguimiento de instrucciones han revolucionado el campo de la inteligencia artificial. Estos modelos muestran una excepcional capacidad de generalización para abordar diversas tareas del mundo real a través de sus interfaces de lenguaje natural. Sin embargo, su rendimiento depende en gran medida de datos ejemplares de alta calidad, que a menudo son difíciles de obtener. Este desafío se ve aún más agravado cuando se trata del seguimiento de instrucciones multimodales. Presentamos TextBind, un marco casi libre de anotaciones para potenciar modelos de lenguaje más grandes con capacidades de seguimiento de instrucciones multimodales intercaladas en múltiples turnos. Nuestro enfoque requiere únicamente pares de imágenes y descripciones, y genera conversaciones multimodales de instrucción-respuesta en múltiples turnos a partir de un modelo de lenguaje. Publicamos nuestro conjunto de datos, modelo y demostración para fomentar futuras investigaciones en el área del seguimiento de instrucciones multimodales.
English
Large language models with instruction-following abilities have
revolutionized the field of artificial intelligence. These models show
exceptional generalizability to tackle various real-world tasks through their
natural language interfaces. However, their performance heavily relies on
high-quality exemplar data, which is often difficult to obtain. This challenge
is further exacerbated when it comes to multimodal instruction following. We
introduce TextBind, an almost annotation-free framework for empowering larger
language models with the multi-turn interleaved multimodal
instruction-following capabilities. Our approach requires only image-caption
pairs and generates multi-turn multimodal instruction-response conversations
from a language model. We release our dataset, model, and demo to foster future
research in the area of multimodal instruction following.