ChatPaper.aiChatPaper

Видеть — значит верить: использование GPT-4V для улучшения настройки визуальных инструкций

To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning

November 13, 2023
Авторы: Junke Wang, Lingchen Meng, Zejia Weng, Bo He, Zuxuan Wu, Yu-Gang Jiang
cs.AI

Аннотация

Существующие методы настройки визуальных инструкций обычно используют текстовые описания для генерации данных, следующих инструкциям, с помощью больших языковых моделей. Несмотря на достигнутые впечатляющие результаты, эти описания основаны на аннотациях изображений, которые зачастую являются грубо детализированными. Более того, инструкции могут даже противоречить визуальному содержанию без учета полного визуального контекста. Для решения этой проблемы мы представляем детализированный набор данных визуальных инструкций LVIS-Instruct4V, который содержит 220 тысяч визуально согласованных и контекстно-осознанных инструкций, созданных с использованием мощной модели GPT-4V на основе изображений из LVIS. Экспериментальная проверка и кейс-стади демонстрируют, что высококачественные данные визуальных инструкций могут значительно улучшить производительность LLaVA-1.5, передовой крупномасштабной мультимодальной модели, на широком спектре бенчмарков. Примечательно, что просто заменив LLaVA-Instruct на наш LVIS-Instruct4V, мы достигаем лучших результатов, чем LLaVA, на большинстве сложных бенчмарков для мультимодальных моделей, например, LLaVA^w (76.7 против 70.7) и MM-Vet (40.2 против 35.4). Мы публикуем наши данные и модель по адресу https://github.com/X2FD/LVIS-INSTRUCT4V.
English
Existing visual instruction tuning methods typically prompt large language models with textual descriptions to generate instruction-following data. Despite the promising performance achieved, these descriptions are derived from image annotations, which are oftentimes coarse-grained. Furthermore, the instructions might even contradict the visual content without observing the entire visual context. To address this challenge, we introduce a fine-grained visual instruction dataset, LVIS-Instruct4V, which contains 220K visually aligned and context-aware instructions produced by prompting the powerful GPT-4V with images from LVIS. Through experimental validation and case studies, we demonstrate that high-quality visual instructional data could improve the performance of LLaVA-1.5, a state-of-the-art large multimodal model, across a wide spectrum of benchmarks by clear margins. Notably, by simply replacing the LLaVA-Instruct with our LVIS-Instruct4V, we achieve better results than LLaVA on most challenging LMM benchmarks, e.g., LLaVA^w (76.7 vs. 70.7) and MM-Vet (40.2 vs. 35.4). We release our data and model at https://github.com/X2FD/LVIS-INSTRUCT4V.
PDF160December 15, 2024