Silkie: Voorkeursdistillatie voor Grote Visuele Taalmodellen
Silkie: Preference Distillation for Large Visual Language Models
December 17, 2023
Auteurs: Lei Li, Zhihui Xie, Mukai Li, Shunian Chen, Peiyi Wang, Liang Chen, Yazheng Yang, Benyou Wang, Lingpeng Kong
cs.AI
Samenvatting
Dit artikel onderzoekt voorkeursdistillatie voor grote visueel-taalkundige modellen (LVLMs), om hun vermogen te verbeteren om nuttige en betrouwbare reacties te genereren die verankerd zijn in de visuele context. We bouwen eerst een visueel-taalkundig feedbackdataset (VLFeedback) met behulp van AI-annotatie. Specifiek worden reacties gegenereerd door modellen die zijn bemonsterd uit 12 LVLMs, gebaseerd op multimodale instructies afkomstig uit verschillende datasets. We gebruiken GPT-4V om de gegenereerde uitvoer te beoordelen op nuttigheid, visuele betrouwbaarheid en ethische overwegingen. Bovendien wordt de voorkeurssupervisie gedistilleerd in Qwen-VL-Chat via de directe voorkeursoptimalisatie (DPO) methode. Het resulterende model, Silkie, behaalt een relatieve verbetering van 6,9% en 9,5% op de MME-benchmark wat betreft perceptie- en cognitievermogens, respectievelijk. Silkie toont ook verminderde hallucinatie door een nieuwe state-of-the-art score van 3,02 te behalen op de MMHal-Bench benchmark. Verdere analyse toont aan dat DPO met onze VLFeedback-dataset voornamelijk de fijnmazige perceptie en complexe cognitieve vaardigheden van LVLMs versterkt, wat leidt tot meer uitgebreide verbeteringen in vergelijking met door mensen geannoteerde voorkeursdatasets.
English
This paper explores preference distillation for large vision language models
(LVLMs), improving their ability to generate helpful and faithful responses
anchoring the visual context. We first build a vision-language feedback
(VLFeedback) dataset utilizing AI annotation. Specifically, responses are
generated by models sampled from 12 LVLMs, conditioned on multi-modal
instructions sourced from various datasets. We adopt GPT-4V to assess the
generated outputs regarding helpfulness, visual faithfulness, and ethical
considerations. Furthermore, the preference supervision is distilled into
Qwen-VL-Chat through the direct preference optimization (DPO) method. The
resulting model Silkie, achieves 6.9% and 9.5% relative improvement on the MME
benchmark regarding the perception and cognition capabilities, respectively.
Silkie also demonstrates reduced hallucination by setting a new
state-of-the-art score of 3.02 on the MMHal-Bench benchmark. Further analysis
shows that DPO with our VLFeedback dataset mainly boosts the fine-grained
perception and complex cognition abilities of LVLMs, leading to more
comprehensive improvements compared to human-annotated preference datasets.