Silkie: Präferenzdestillation für große visuelle Sprachmodelle
Silkie: Preference Distillation for Large Visual Language Models
December 17, 2023
papers.authors: Lei Li, Zhihui Xie, Mukai Li, Shunian Chen, Peiyi Wang, Liang Chen, Yazheng Yang, Benyou Wang, Lingpeng Kong
cs.AI
papers.abstract
Diese Arbeit untersucht die Präferenzdestillation für große visuell-sprachliche Modelle (LVLMs), um deren Fähigkeit zu verbessern, hilfreiche und treue Antworten zu generieren, die den visuellen Kontext verankern. Zunächst erstellen wir einen Vision-Language-Feedback-Datensatz (VLFeedback) unter Verwendung von KI-Annotation. Konkret werden Antworten von Modellen generiert, die aus 12 LVLMs stammen und auf multimodalen Anweisungen basieren, die aus verschiedenen Datensätzen stammen. Wir verwenden GPT-4V, um die generierten Ausgaben hinsichtlich Hilfsbereitschaft, visueller Treue und ethischer Überlegungen zu bewerten. Darüber hinaus wird die Präferenzüberwachung durch die Methode der direkten Präferenzoptimierung (DPO) in Qwen-VL-Chat destilliert. Das resultierende Modell Silkie erzielt eine relative Verbesserung von 6,9 % bzw. 9,5 % auf dem MME-Benchmark in Bezug auf die Wahrnehmungs- und Kognitionsfähigkeiten. Silkie zeigt auch eine reduzierte Halluzination, indem es einen neuen State-of-the-Art-Score von 3,02 auf dem MMHal-Benchmark erreicht. Weitere Analysen zeigen, dass DPO mit unserem VLFeedback-Datensatz hauptsächlich die feinkörnige Wahrnehmung und die komplexen Kognitionsfähigkeiten von LVLMs steigert, was zu umfassenderen Verbesserungen im Vergleich zu von Menschen annotierten Präferenzdatensätzen führt.
English
This paper explores preference distillation for large vision language models
(LVLMs), improving their ability to generate helpful and faithful responses
anchoring the visual context. We first build a vision-language feedback
(VLFeedback) dataset utilizing AI annotation. Specifically, responses are
generated by models sampled from 12 LVLMs, conditioned on multi-modal
instructions sourced from various datasets. We adopt GPT-4V to assess the
generated outputs regarding helpfulness, visual faithfulness, and ethical
considerations. Furthermore, the preference supervision is distilled into
Qwen-VL-Chat through the direct preference optimization (DPO) method. The
resulting model Silkie, achieves 6.9% and 9.5% relative improvement on the MME
benchmark regarding the perception and cognition capabilities, respectively.
Silkie also demonstrates reduced hallucination by setting a new
state-of-the-art score of 3.02 on the MMHal-Bench benchmark. Further analysis
shows that DPO with our VLFeedback dataset mainly boosts the fine-grained
perception and complex cognition abilities of LVLMs, leading to more
comprehensive improvements compared to human-annotated preference datasets.