ChatPaper.aiChatPaper

Silkie: Дистилляция предпочтений для крупных визуально-языковых моделей

Silkie: Preference Distillation for Large Visual Language Models

December 17, 2023
Авторы: Lei Li, Zhihui Xie, Mukai Li, Shunian Chen, Peiyi Wang, Liang Chen, Yazheng Yang, Benyou Wang, Lingpeng Kong
cs.AI

Аннотация

В данной статье исследуется задача дистилляции предпочтений для крупных визуально-языковых моделей (LVLMs) с целью улучшения их способности генерировать полезные и достоверные ответы, основанные на визуальном контексте. Сначала создается набор данных обратной связи по визуально-языковым моделям (VLFeedback) с использованием аннотаций, выполненных искусственным интеллектом. В частности, ответы генерируются моделями, выбранными из 12 LVLMs, на основе мультимодальных инструкций, взятых из различных наборов данных. Для оценки сгенерированных ответов по критериям полезности, визуальной достоверности и этических соображений применяется GPT-4V. Далее предпочтения дистиллируются в модель Qwen-VL-Chat с использованием метода оптимизации прямых предпочтений (DPO). Полученная модель Silkie демонстрирует относительное улучшение на 6,9% и 9,5% на бенчмарке MME по показателям восприятия и когнитивных способностей соответственно. Silkie также показывает снижение уровня галлюцинаций, устанавливая новый рекордный показатель 3,02 на бенчмарке MMHal-Bench. Дополнительный анализ показывает, что применение DPO с набором данных VLFeedback в основном улучшает способности LVLMs к детальному восприятию и сложным когнитивным задачам, что приводит к более комплексным улучшениям по сравнению с наборами данных, аннотированными человеком.
English
This paper explores preference distillation for large vision language models (LVLMs), improving their ability to generate helpful and faithful responses anchoring the visual context. We first build a vision-language feedback (VLFeedback) dataset utilizing AI annotation. Specifically, responses are generated by models sampled from 12 LVLMs, conditioned on multi-modal instructions sourced from various datasets. We adopt GPT-4V to assess the generated outputs regarding helpfulness, visual faithfulness, and ethical considerations. Furthermore, the preference supervision is distilled into Qwen-VL-Chat through the direct preference optimization (DPO) method. The resulting model Silkie, achieves 6.9% and 9.5% relative improvement on the MME benchmark regarding the perception and cognition capabilities, respectively. Silkie also demonstrates reduced hallucination by setting a new state-of-the-art score of 3.02 on the MMHal-Bench benchmark. Further analysis shows that DPO with our VLFeedback dataset mainly boosts the fine-grained perception and complex cognition abilities of LVLMs, leading to more comprehensive improvements compared to human-annotated preference datasets.
PDF111December 15, 2024