Silkie : Distillation des préférences pour les grands modèles visuels et linguistiques
Silkie: Preference Distillation for Large Visual Language Models
December 17, 2023
Auteurs: Lei Li, Zhihui Xie, Mukai Li, Shunian Chen, Peiyi Wang, Liang Chen, Yazheng Yang, Benyou Wang, Lingpeng Kong
cs.AI
Résumé
Cet article explore la distillation des préférences pour les grands modèles de vision et de langage (LVLMs), afin d'améliorer leur capacité à générer des réponses utiles et fidèles ancrées dans le contexte visuel. Nous construisons d'abord un ensemble de données de feedback vision-langage (VLFeedback) en utilisant l'annotation par IA. Plus précisément, les réponses sont générées par des modèles échantillonnés parmi 12 LVLMs, conditionnées par des instructions multimodales provenant de divers ensembles de données. Nous utilisons GPT-4V pour évaluer les sorties générées en termes d'utilité, de fidélité visuelle et de considérations éthiques. Ensuite, la supervision des préférences est distillée dans Qwen-VL-Chat grâce à la méthode d'optimisation directe des préférences (DPO). Le modèle résultant, Silkie, obtient une amélioration relative de 6,9 % et 9,5 % sur le benchmark MME concernant respectivement les capacités de perception et de cognition. Silkie démontre également une réduction des hallucinations en établissant un nouveau score de pointe de 3,02 sur le benchmark MMHal-Bench. Une analyse approfondie montre que la DPO avec notre ensemble de données VLFeedback améliore principalement les capacités de perception fine et de cognition complexe des LVLMs, conduisant à des améliorations plus complètes par rapport aux ensembles de données de préférences annotées par des humains.
English
This paper explores preference distillation for large vision language models
(LVLMs), improving their ability to generate helpful and faithful responses
anchoring the visual context. We first build a vision-language feedback
(VLFeedback) dataset utilizing AI annotation. Specifically, responses are
generated by models sampled from 12 LVLMs, conditioned on multi-modal
instructions sourced from various datasets. We adopt GPT-4V to assess the
generated outputs regarding helpfulness, visual faithfulness, and ethical
considerations. Furthermore, the preference supervision is distilled into
Qwen-VL-Chat through the direct preference optimization (DPO) method. The
resulting model Silkie, achieves 6.9% and 9.5% relative improvement on the MME
benchmark regarding the perception and cognition capabilities, respectively.
Silkie also demonstrates reduced hallucination by setting a new
state-of-the-art score of 3.02 on the MMHal-Bench benchmark. Further analysis
shows that DPO with our VLFeedback dataset mainly boosts the fine-grained
perception and complex cognition abilities of LVLMs, leading to more
comprehensive improvements compared to human-annotated preference datasets.