Silkie: Destilação de Preferência para Grandes Modelos de Linguagem Visual
Silkie: Preference Distillation for Large Visual Language Models
December 17, 2023
Autores: Lei Li, Zhihui Xie, Mukai Li, Shunian Chen, Peiyi Wang, Liang Chen, Yazheng Yang, Benyou Wang, Lingpeng Kong
cs.AI
Resumo
Este artigo explora a destilação de preferências para grandes modelos de linguagem e visão (LVLMs), aprimorando sua capacidade de gerar respostas úteis e fiéis ancoradas no contexto visual. Primeiramente, construímos um conjunto de dados de feedback visão-linguagem (VLFeedback) utilizando anotação por IA. Especificamente, as respostas são geradas por modelos amostrados de 12 LVLMs, condicionados a instruções multimodais provenientes de diversos conjuntos de dados. Adotamos o GPT-4V para avaliar as saídas geradas em termos de utilidade, fidelidade visual e considerações éticas. Além disso, a supervisão de preferências é destilada no Qwen-VL-Chat por meio do método de otimização direta de preferências (DPO). O modelo resultante, Silkie, alcança uma melhoria relativa de 6,9% e 9,5% no benchmark MME em relação às capacidades de percepção e cognição, respectivamente. O Silkie também demonstra redução de alucinação ao estabelecer uma nova pontuação de referência de 3,02 no benchmark MMHal-Bench. Análises adicionais mostram que o DPO com nosso conjunto de dados VLFeedback impulsiona principalmente as habilidades de percepção detalhada e cognição complexa dos LVLMs, resultando em melhorias mais abrangentes em comparação com conjuntos de dados de preferências anotados por humanos.
English
This paper explores preference distillation for large vision language models
(LVLMs), improving their ability to generate helpful and faithful responses
anchoring the visual context. We first build a vision-language feedback
(VLFeedback) dataset utilizing AI annotation. Specifically, responses are
generated by models sampled from 12 LVLMs, conditioned on multi-modal
instructions sourced from various datasets. We adopt GPT-4V to assess the
generated outputs regarding helpfulness, visual faithfulness, and ethical
considerations. Furthermore, the preference supervision is distilled into
Qwen-VL-Chat through the direct preference optimization (DPO) method. The
resulting model Silkie, achieves 6.9% and 9.5% relative improvement on the MME
benchmark regarding the perception and cognition capabilities, respectively.
Silkie also demonstrates reduced hallucination by setting a new
state-of-the-art score of 3.02 on the MMHal-Bench benchmark. Further analysis
shows that DPO with our VLFeedback dataset mainly boosts the fine-grained
perception and complex cognition abilities of LVLMs, leading to more
comprehensive improvements compared to human-annotated preference datasets.