Улучшенные базовые модели с визуальной настройкой инструкций
Improved Baselines with Visual Instruction Tuning
October 5, 2023
Авторы: Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee
cs.AI
Аннотация
Крупные мультимодальные модели (LMM) недавно продемонстрировали обнадеживающий прогресс благодаря настройке с визуальными инструкциями. В данной заметке мы показываем, что полностью связанный кросс-модальный коннектор между визуальными и языковыми данными в LLaVA оказывается удивительно мощным и эффективным по данным. С помощью простых модификаций LLaVA, а именно использования CLIP-ViT-L-336px с MLP-проекцией и добавления данных VQA, ориентированных на академические задачи, с простыми подсказками для форматирования ответов, мы устанавливаем более сильные базовые линии, которые достигают наилучших результатов на 11 бенчмарках. Наша финальная модель с 13B параметров использует всего 1.2M общедоступных данных и завершает полное обучение примерно за 1 день на одном узле с 8 GPU A100. Мы надеемся, что это сделает исследования в области передовых LMM более доступными. Код и модель будут общедоступны.
English
Large multimodal models (LMM) have recently shown encouraging progress with
visual instruction tuning. In this note, we show that the fully-connected
vision-language cross-modal connector in LLaVA is surprisingly powerful and
data-efficient. With simple modifications to LLaVA, namely, using
CLIP-ViT-L-336px with an MLP projection and adding academic-task-oriented VQA
data with simple response formatting prompts, we establish stronger baselines
that achieve state-of-the-art across 11 benchmarks. Our final 13B checkpoint
uses merely 1.2M publicly available data, and finishes full training in ~1 day
on a single 8-A100 node. We hope this can make state-of-the-art LMM research
more accessible. Code and model will be publicly available.