ChatPaper.aiChatPaper

LLaVAR: Ajuste Mejorado de Instrucciones Visuales para la Comprensión de Imágenes con Texto

LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

June 29, 2023
Autores: Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, Tong Sun
cs.AI

Resumen

El ajuste por instrucciones desbloquea la capacidad superior de los Modelos de Lenguaje de Gran Escala (LLM) para interactuar con humanos. Además, los conjuntos de datos recientes de seguimiento de instrucciones incluyen imágenes como entradas visuales, recopilando respuestas para instrucciones basadas en imágenes. Sin embargo, los modelos ajustados por instrucciones visuales no comprenden bien los detalles textuales dentro de las imágenes. Este trabajo mejora la actual pipeline de ajuste por instrucciones visuales con imágenes ricas en texto (por ejemplo, carteles de películas, portadas de libros, etc.). Específicamente, primero utilizamos herramientas OCR disponibles públicamente para recopilar resultados en 422K imágenes ricas en texto del conjunto de datos LAION. Además, utilizamos GPT-4 solo de texto con textos reconocidos y descripciones de imágenes para generar 16K conversaciones, cada una conteniendo pares de preguntas y respuestas para imágenes ricas en texto. Al combinar nuestros datos recopilados con datos previos de seguimiento de instrucciones multimodales, nuestro modelo, LLaVAR, mejora sustancialmente la capacidad del modelo LLaVA en conjuntos de datos de VQA basados en texto (hasta un 20% de mejora en precisión) mientras alcanza una precisión del 91.42% en ScienceQA. La evaluación de seguimiento de instrucciones basada en GPT-4 también demuestra la mejora de nuestro modelo tanto en imágenes naturales como en imágenes ricas en texto. A través de análisis cualitativo, LLaVAR muestra habilidades prometedoras de interacción (por ejemplo, razonamiento, escritura y elaboración) con humanos basadas en el contenido en línea del mundo real más reciente que combina texto e imágenes. Hacemos nuestro código/datos/modelos disponibles públicamente en https://llavar.github.io/.
English
Instruction tuning unlocks the superior capability of Large Language Models (LLM) to interact with humans. Furthermore, recent instruction-following datasets include images as visual inputs, collecting responses for image-based instructions. However, visual instruction-tuned models cannot comprehend textual details within images well. This work enhances the current visual instruction tuning pipeline with text-rich images (e.g., movie posters, book covers, etc.). Specifically, we first use publicly available OCR tools to collect results on 422K text-rich images from the LAION dataset. Moreover, we prompt text-only GPT-4 with recognized texts and image captions to generate 16K conversations, each containing question-answer pairs for text-rich images. By combining our collected data with previous multi-modal instruction-following data, our model, LLaVAR, substantially improves the LLaVA model's capability on text-based VQA datasets (up to 20% accuracy improvement) while achieving an accuracy of 91.42% on ScienceQA. The GPT-4-based instruction-following evaluation also demonstrates the improvement of our model on both natural images and text-rich images. Through qualitative analysis, LLaVAR shows promising interaction (e.g., reasoning, writing, and elaboration) skills with humans based on the latest real-world online content that combines text and images. We make our code/data/models publicly available at https://llavar.github.io/.
PDF113December 15, 2024