LLaVAR: Ajuste Mejorado de Instrucciones Visuales para la Comprensión de Imágenes con Texto
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding
June 29, 2023
Autores: Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, Tong Sun
cs.AI
Resumen
El ajuste por instrucciones desbloquea la capacidad superior de los Modelos de Lenguaje de Gran Escala (LLM) para interactuar con humanos. Además, los conjuntos de datos recientes de seguimiento de instrucciones incluyen imágenes como entradas visuales, recopilando respuestas para instrucciones basadas en imágenes. Sin embargo, los modelos ajustados por instrucciones visuales no comprenden bien los detalles textuales dentro de las imágenes. Este trabajo mejora la actual pipeline de ajuste por instrucciones visuales con imágenes ricas en texto (por ejemplo, carteles de películas, portadas de libros, etc.). Específicamente, primero utilizamos herramientas OCR disponibles públicamente para recopilar resultados en 422K imágenes ricas en texto del conjunto de datos LAION. Además, utilizamos GPT-4 solo de texto con textos reconocidos y descripciones de imágenes para generar 16K conversaciones, cada una conteniendo pares de preguntas y respuestas para imágenes ricas en texto. Al combinar nuestros datos recopilados con datos previos de seguimiento de instrucciones multimodales, nuestro modelo, LLaVAR, mejora sustancialmente la capacidad del modelo LLaVA en conjuntos de datos de VQA basados en texto (hasta un 20% de mejora en precisión) mientras alcanza una precisión del 91.42% en ScienceQA. La evaluación de seguimiento de instrucciones basada en GPT-4 también demuestra la mejora de nuestro modelo tanto en imágenes naturales como en imágenes ricas en texto. A través de análisis cualitativo, LLaVAR muestra habilidades prometedoras de interacción (por ejemplo, razonamiento, escritura y elaboración) con humanos basadas en el contenido en línea del mundo real más reciente que combina texto e imágenes. Hacemos nuestro código/datos/modelos disponibles públicamente en https://llavar.github.io/.
English
Instruction tuning unlocks the superior capability of Large Language Models
(LLM) to interact with humans. Furthermore, recent instruction-following
datasets include images as visual inputs, collecting responses for image-based
instructions. However, visual instruction-tuned models cannot comprehend
textual details within images well. This work enhances the current visual
instruction tuning pipeline with text-rich images (e.g., movie posters, book
covers, etc.). Specifically, we first use publicly available OCR tools to
collect results on 422K text-rich images from the LAION dataset. Moreover, we
prompt text-only GPT-4 with recognized texts and image captions to generate 16K
conversations, each containing question-answer pairs for text-rich images. By
combining our collected data with previous multi-modal instruction-following
data, our model, LLaVAR, substantially improves the LLaVA model's capability on
text-based VQA datasets (up to 20% accuracy improvement) while achieving an
accuracy of 91.42% on ScienceQA. The GPT-4-based instruction-following
evaluation also demonstrates the improvement of our model on both natural
images and text-rich images. Through qualitative analysis, LLaVAR shows
promising interaction (e.g., reasoning, writing, and elaboration) skills with
humans based on the latest real-world online content that combines text and
images. We make our code/data/models publicly available at
https://llavar.github.io/.