MIA-DPO: 大規模ビジョン言語モデル向けのマルチ画像拡張直接選好最適化
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models
October 23, 2024
著者: Ziyu Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Haodong Duan, Conghui He, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI
要旨
ビジュアル選好整合は、大規模ビジョン言語モデル(LVLMs)を訓練して、視覚入力間の人間の選好を予測することを含みます。通常、これは選択/非選択のペアのラベル付きデータセットを使用し、直接選好最適化(DPO)などの最適化アルゴリズムを用いて達成されます。既存のビジュアル整合手法は、主に単一画像シナリオ向けに設計されており、多様な訓練データの不足と選択/非選択のペアの注釈付けの高コストのため、複数画像タスクの複雑さを効果的に処理するのに苦労しています。私たちは、マルチ画像拡張直接選好最適化(MIA-DPO)という、複数画像入力を効果的に処理するビジュアル選好整合アプローチを提案します。MIA-DPOは、単一画像データをグリッドコラージュやピクインピック形式で配置された関連のない画像で拡張することで、多様なマルチ画像訓練データの不足を緩和し、多様なマルチ画像データの注釈付けに関連するコストを大幅に削減します。私たちの観察から、LVLMsの注意値は異なる画像間でかなり変化することが明らかになりました。私たちは、モデルが誤って焦点を当てた可能性のある非選択応答を特定し、フィルタリングするために注意値を使用します。人間の注釈、追加データ、外部モデルやAPIに依存せずに、選択/非選択のペアを構築するための注意に配慮した選択を行います。MIA-DPOは、さまざまなアーキテクチャと互換性があり、LLaVA-v1.5で平均パフォーマンス向上率3.0%、最近のInternLM-XC2.5で4.3%を達成し、5つのマルチ画像ベンチマークで既存手法を上回ります。さらに、MIA-DPOは、モデルが単一画像を理解する能力にほとんど影響を与えません。
English
Visual preference alignment involves training Large Vision-Language Models
(LVLMs) to predict human preferences between visual inputs. This is typically
achieved by using labeled datasets of chosen/rejected pairs and employing
optimization algorithms like direct preference optimization (DPO). Existing
visual alignment methods, primarily designed for single-image scenarios,
struggle to effectively handle the complexity of multi-image tasks due to the
scarcity of diverse training data and the high cost of annotating
chosen/rejected pairs. We present Multi-Image Augmented Direct Preference
Optimization (MIA-DPO), a visual preference alignment approach that effectively
handles multi-image inputs. MIA-DPO mitigates the scarcity of diverse
multi-image training data by extending single-image data with unrelated images
arranged in grid collages or pic-in-pic formats, significantly reducing the
costs associated with multi-image data annotations. Our observation reveals
that attention values of LVLMs vary considerably across different images. We
use attention values to identify and filter out rejected responses the model
may have mistakenly focused on. Our attention-aware selection for constructing
the chosen/rejected pairs without relying on (i) human annotation, (ii) extra
data, and (iii) external models or APIs. MIA-DPO is compatible with various
architectures and outperforms existing methods on five multi-image benchmarks,
achieving an average performance boost of 3.0% on LLaVA-v1.5 and 4.3% on the
recent InternLM-XC2.5. Moreover, MIA-DPO has a minimal effect on the model's
ability to understand single images.Summary
AI-Generated Summary