MIA-DPO: 大規模ビジョン言語モデル向けのマルチ画像拡張直接選好最適化MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large
Vision-Language Models
ビジュアル選好整合は、大規模ビジョン言語モデル(LVLMs)を訓練して、視覚入力間の人間の選好を予測することを含みます。通常、これは選択/非選択のペアのラベル付きデータセットを使用し、直接選好最適化(DPO)などの最適化アルゴリズムを用いて達成されます。既存のビジュアル整合手法は、主に単一画像シナリオ向けに設計されており、多様な訓練データの不足と選択/非選択のペアの注釈付けの高コストのため、複数画像タスクの複雑さを効果的に処理するのに苦労しています。私たちは、マルチ画像拡張直接選好最適化(MIA-DPO)という、複数画像入力を効果的に処理するビジュアル選好整合アプローチを提案します。MIA-DPOは、単一画像データをグリッドコラージュやピクインピック形式で配置された関連のない画像で拡張することで、多様なマルチ画像訓練データの不足を緩和し、多様なマルチ画像データの注釈付けに関連するコストを大幅に削減します。私たちの観察から、LVLMsの注意値は異なる画像間でかなり変化することが明らかになりました。私たちは、モデルが誤って焦点を当てた可能性のある非選択応答を特定し、フィルタリングするために注意値を使用します。人間の注釈、追加データ、外部モデルやAPIに依存せずに、選択/非選択のペアを構築するための注意に配慮した選択を行います。MIA-DPOは、さまざまなアーキテクチャと互換性があり、LLaVA-v1.5で平均パフォーマンス向上率3.0%、最近のInternLM-XC2.5で4.3%を達成し、5つのマルチ画像ベンチマークで既存手法を上回ります。さらに、MIA-DPOは、モデルが単一画像を理解する能力にほとんど影響を与えません。