Silkie: Distilación de Preferencias para Modelos de Lenguaje Visual a Gran Escala
Silkie: Preference Distillation for Large Visual Language Models
December 17, 2023
Autores: Lei Li, Zhihui Xie, Mukai Li, Shunian Chen, Peiyi Wang, Liang Chen, Yazheng Yang, Benyou Wang, Lingpeng Kong
cs.AI
Resumen
Este artículo explora la destilación de preferencias para modelos grandes de lenguaje visual (LVLMs), mejorando su capacidad para generar respuestas útiles y fieles que se anclen en el contexto visual. Primero, construimos un conjunto de datos de retroalimentación visual-lingüística (VLFeedback) utilizando anotaciones generadas por IA. Específicamente, las respuestas son generadas por modelos muestreados de 12 LVLMs, condicionados por instrucciones multimodales obtenidas de diversos conjuntos de datos. Adoptamos GPT-4V para evaluar las salidas generadas en términos de utilidad, fidelidad visual y consideraciones éticas. Además, la supervisión de preferencias se destila en Qwen-VL-Chat mediante el método de optimización directa de preferencias (DPO). El modelo resultante, Silkie, logra una mejora relativa del 6.9% y 9.5% en el benchmark MME en cuanto a las capacidades de percepción y cognición, respectivamente. Silkie también demuestra una reducción en la alucinación al establecer un nuevo estado del arte con una puntuación de 3.02 en el benchmark MMHal-Bench. Un análisis adicional muestra que el DPO con nuestro conjunto de datos VLFeedback principalmente potencia las habilidades de percepción detallada y cognición compleja de los LVLMs, lo que conduce a mejoras más integrales en comparación con los conjuntos de datos de preferencias anotados por humanos.
English
This paper explores preference distillation for large vision language models
(LVLMs), improving their ability to generate helpful and faithful responses
anchoring the visual context. We first build a vision-language feedback
(VLFeedback) dataset utilizing AI annotation. Specifically, responses are
generated by models sampled from 12 LVLMs, conditioned on multi-modal
instructions sourced from various datasets. We adopt GPT-4V to assess the
generated outputs regarding helpfulness, visual faithfulness, and ethical
considerations. Furthermore, the preference supervision is distilled into
Qwen-VL-Chat through the direct preference optimization (DPO) method. The
resulting model Silkie, achieves 6.9% and 9.5% relative improvement on the MME
benchmark regarding the perception and cognition capabilities, respectively.
Silkie also demonstrates reduced hallucination by setting a new
state-of-the-art score of 3.02 on the MMHal-Bench benchmark. Further analysis
shows that DPO with our VLFeedback dataset mainly boosts the fine-grained
perception and complex cognition abilities of LVLMs, leading to more
comprehensive improvements compared to human-annotated preference datasets.