ChatPaper.aiChatPaper

LLaVAR: Усовершенствованная настройка визуальных инструкций для понимания текстовых изображений

LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

June 29, 2023
Авторы: Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, Tong Sun
cs.AI

Аннотация

Настройка на инструкции раскрывает превосходные возможности крупных языковых моделей (LLM) для взаимодействия с людьми. Более того, недавние наборы данных, ориентированные на выполнение инструкций, включают изображения в качестве визуальных входных данных, собирая ответы на инструкции, основанные на изображениях. Однако модели, настроенные на визуальные инструкции, не могут хорошо понимать текстовые детали внутри изображений. Данная работа улучшает текущий процесс настройки на визуальные инструкции с использованием изображений, насыщенных текстом (например, постеры фильмов, обложки книг и т.д.). В частности, мы сначала используем общедоступные инструменты OCR для сбора результатов по 422K изображениям, насыщенным текстом, из набора данных LAION. Кроме того, мы используем текстовую версию GPT-4 с распознанными текстами и описаниями изображений для генерации 16K диалогов, каждый из которых содержит пары вопрос-ответ для изображений с текстом. Объединяя собранные нами данные с предыдущими многомодальными данными, ориентированными на выполнение инструкций, наша модель LLaVAR значительно улучшает возможности модели LLaVA на наборах данных VQA, основанных на тексте (улучшение точности до 20%), достигая точности 91,42% на ScienceQA. Оценка выполнения инструкций на основе GPT-4 также демонстрирует улучшение нашей модели как на естественных изображениях, так и на изображениях с текстом. Качественный анализ показывает, что LLaVAR обладает перспективными навыками взаимодействия (например, рассуждение, написание текста и детализация) с людьми на основе последнего реального онлайн-контента, сочетающего текст и изображения. Мы делаем наш код/данные/модели общедоступными по адресу https://llavar.github.io/.
English
Instruction tuning unlocks the superior capability of Large Language Models (LLM) to interact with humans. Furthermore, recent instruction-following datasets include images as visual inputs, collecting responses for image-based instructions. However, visual instruction-tuned models cannot comprehend textual details within images well. This work enhances the current visual instruction tuning pipeline with text-rich images (e.g., movie posters, book covers, etc.). Specifically, we first use publicly available OCR tools to collect results on 422K text-rich images from the LAION dataset. Moreover, we prompt text-only GPT-4 with recognized texts and image captions to generate 16K conversations, each containing question-answer pairs for text-rich images. By combining our collected data with previous multi-modal instruction-following data, our model, LLaVAR, substantially improves the LLaVA model's capability on text-based VQA datasets (up to 20% accuracy improvement) while achieving an accuracy of 91.42% on ScienceQA. The GPT-4-based instruction-following evaluation also demonstrates the improvement of our model on both natural images and text-rich images. Through qualitative analysis, LLaVAR shows promising interaction (e.g., reasoning, writing, and elaboration) skills with humans based on the latest real-world online content that combines text and images. We make our code/data/models publicly available at https://llavar.github.io/.
PDF113December 15, 2024