MIA-DPO:大型视觉语言模型的多图像增强直接偏好优化MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large
Vision-Language Models
视觉偏好对齐涉及训练大型视觉-语言模型(LVLMs)以预测人类在视觉输入之间的偏好。通常通过使用标记的选择/拒绝对的数据集,并利用像直接偏好优化(DPO)这样的优化算法来实现。现有的视觉对齐方法主要设计用于单图像场景,由于多图像任务的复杂性,缺乏多样化的训练数据和标记选择/拒绝对的高成本,因此难以有效处理。我们提出了多图像增强直接偏好优化(MIA-DPO),这是一种有效处理多图像输入的视觉偏好对齐方法。MIA-DPO通过将单图像数据扩展为以网格拼贴或画中画格式排列的无关图像,显著降低了与多图像数据标注相关的成本,从而缓解了多样化多图像训练数据的稀缺性。我们的观察表明,LVLMs的注意力值在不同图像之间变化很大。我们利用注意力值来识别并过滤模型可能错误关注的拒绝响应。我们的注意力感知选择用于构建选择/拒绝对,而无需依赖于(i)人类注释,(ii)额外数据和(iii)外部模型或API。MIA-DPO与各种架构兼容,并在五个多图像基准测试中优于现有方法,在LLaVA-v1.5上平均性能提升3.0%,在最近的InternLM-XC2.5上提升4.3%。此外,MIA-DPO对模型理解单图像的能力影响很小。