ChatPaper.aiChatPaper

Согласование крупной мультимодальной модели с надежной настройкой на инструкции

Aligning Large Multi-Modal Model with Robust Instruction Tuning

June 26, 2023
Авторы: Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang
cs.AI

Аннотация

Несмотря на значительный прогресс в многомодальных задачах, современные крупные многомодальные модели (LMM) склонны к генерации противоречивых описаний, не соответствующих связанным изображениям и инструкциям человека. В данной статье мы решаем эту проблему, представляя первый крупный и разнообразный набор данных для настройки визуальных инструкций, названный Large-scale Robust Visual (LRV)-Instruction. Наш набор данных состоит из 120 тысяч визуальных инструкций, сгенерированных GPT4, охватывающих 16 задач, связанных с обработкой изображений и текста, с открытыми инструкциями и ответами. В отличие от существующих исследований, которые в основном сосредоточены на положительных примерах инструкций, мы разработали LRV-Instruction, чтобы включить как положительные, так и отрицательные инструкции для более устойчивой настройки визуальных инструкций. Наши отрицательные инструкции разработаны на двух семантических уровнях: (i) Манипуляция с несуществующими элементами и (ii) Манипуляция с существующими элементами. Для эффективной оценки галлюцинаций, генерируемых LMM, мы предлагаем GPT4-Assisted Visual Instruction Evaluation (GAVIE), новый подход к оценке настройки визуальных инструкций, который не требует аннотированных человеком эталонных ответов и может адаптироваться к различным форматам инструкций. Мы проводим всесторонние эксперименты для изучения галлюцинаций в LMM. Наши результаты показывают, что существующие LMM демонстрируют значительные галлюцинации при обработке наших отрицательных инструкций, особенно в случае инструкций с манипуляцией существующими элементами. Более того, путем дообучения MiniGPT4 на LRV-Instruction мы успешно снижаем уровень галлюцинаций, одновременно улучшая производительность на публичных наборах данных, используя меньше обучающих данных по сравнению с современными методами. Кроме того, мы наблюдаем, что сбалансированное соотношение положительных и отрицательных примеров в обучающих данных приводит к созданию более устойчивой модели. Ссылка на наш проект доступна по адресу https://fuxiaoliu.github.io/LRV/.
English
Despite the promising progress in multi-modal tasks, current large multi-modal models (LMM) are prone to hallucinating inconsistent descriptions with respect to the associated image and human instructions. This paper addresses this issue by introducing the first large and diverse visual instruction tuning dataset, named Large-scale Robust Visual (LRV)-Instruction. Our dataset consists of 120k visual instructions generated by GPT4, covering 16 vision-and-language tasks with open-ended instructions and answers. Unlike existing studies that primarily focus on positive instruction samples, we design LRV-Instruction to include both positive and negative instructions for more robust visual instruction tuning. Our negative instructions are designed at two semantic levels: (i) Nonexistent Element Manipulation and (ii) Existent Element Manipulation. To efficiently measure the hallucination generated by LMMs, we propose GPT4-Assisted Visual Instruction Evaluation (GAVIE), a novel approach to evaluate visual instruction tuning without the need for human-annotated groundtruth answers and can adapt to diverse instruction formats. We conduct comprehensive experiments to investigate the hallucination of LMMs. Our results demonstrate that existing LMMs exhibit significant hallucination when presented with our negative instructions, particularly with Existent Element Manipulation instructions. Moreover, by finetuning MiniGPT4 on LRV-Instruction, we successfully mitigate hallucination while improving performance on public datasets using less training data compared to state-of-the-art methods. Additionally, we observed that a balanced ratio of positive and negative instances in the training data leads to a more robust model. Our project link is available at https://fuxiaoliu.github.io/LRV/.
PDF60December 15, 2024