MIA-DPO: Otimização de Preferência Direta Aumentada de Múltiplas Imagens para Modelos de Visão e Linguagem de Grande Escala
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models
October 23, 2024
Autores: Ziyu Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Haodong Duan, Conghui He, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI
Resumo
O alinhamento de preferência visual envolve treinar Modelos de Grande Visão-Linguagem (LVLMs) para prever preferências humanas entre entradas visuais. Isso é tipicamente alcançado usando conjuntos de dados rotulados de pares escolhidos/rejeitados e empregando algoritmos de otimização como a otimização direta de preferência (DPO). Métodos de alinhamento visual existentes, principalmente projetados para cenários de imagem única, têm dificuldade em lidar efetivamente com a complexidade de tarefas multi-imagem devido à escassez de dados de treinamento diversos e ao alto custo de anotar pares escolhidos/rejeitados. Apresentamos a Otimização Direta de Preferência Aumentada Multi-Imagem (MIA-DPO), uma abordagem de alinhamento de preferência visual que lida efetivamente com entradas multi-imagem. MIA-DPO mitiga a escassez de dados de treinamento multi-imagem diversos estendendo dados de imagem única com imagens não relacionadas dispostas em colagens de grade ou formatos de imagem em imagem, reduzindo significativamente os custos associados às anotações de dados multi-imagem. Nossa observação revela que os valores de atenção dos LVLMs variam consideravelmente entre diferentes imagens. Utilizamos valores de atenção para identificar e filtrar respostas rejeitadas nas quais o modelo pode ter se concentrado erroneamente. Nossa seleção consciente de atenção para construir os pares escolhidos/rejeitados sem depender de (i) anotação humana, (ii) dados extras e (iii) modelos ou APIs externos. MIA-DPO é compatível com várias arquiteturas e supera os métodos existentes em cinco benchmarks multi-imagem, alcançando um aumento médio de desempenho de 3,0% no LLaVA-v1.5 e 4,3% no recente InternLM-XC2.5. Além disso, MIA-DPO tem um efeito mínimo na capacidade do modelo de entender imagens únicas.
English
Visual preference alignment involves training Large Vision-Language Models
(LVLMs) to predict human preferences between visual inputs. This is typically
achieved by using labeled datasets of chosen/rejected pairs and employing
optimization algorithms like direct preference optimization (DPO). Existing
visual alignment methods, primarily designed for single-image scenarios,
struggle to effectively handle the complexity of multi-image tasks due to the
scarcity of diverse training data and the high cost of annotating
chosen/rejected pairs. We present Multi-Image Augmented Direct Preference
Optimization (MIA-DPO), a visual preference alignment approach that effectively
handles multi-image inputs. MIA-DPO mitigates the scarcity of diverse
multi-image training data by extending single-image data with unrelated images
arranged in grid collages or pic-in-pic formats, significantly reducing the
costs associated with multi-image data annotations. Our observation reveals
that attention values of LVLMs vary considerably across different images. We
use attention values to identify and filter out rejected responses the model
may have mistakenly focused on. Our attention-aware selection for constructing
the chosen/rejected pairs without relying on (i) human annotation, (ii) extra
data, and (iii) external models or APIs. MIA-DPO is compatible with various
architectures and outperforms existing methods on five multi-image benchmarks,
achieving an average performance boost of 3.0% on LLaVA-v1.5 and 4.3% on the
recent InternLM-XC2.5. Moreover, MIA-DPO has a minimal effect on the model's
ability to understand single images.Summary
AI-Generated Summary