言語モデル報酬に基づくビデオ大規模マルチモーダルモデルの直接選好最適化
Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward
April 1, 2024
著者: Ruohong Zhang, Liangke Gui, Zhiqing Sun, Yihao Feng, Keyang Xu, Yuanhan Zhang, Di Fu, Chunyuan Li, Alexander Hauptmann, Yonatan Bisk, Yiming Yang
cs.AI
要旨
直接選好最適化(DPO)のような選好モデリング技術は、大規模言語モデル(LLM)の汎化能力を向上させるのに効果的であることが示されています。しかし、ビデオ指示追従タスクにおいて、特に生成された応答における虚構(hallucination)を検出するための有益なフィードバックを提供することは、依然として大きな課題です。これまでの研究では、大規模マルチモーダルモデル(LMM)を報酬モデルとして使用し、選好モデリングを導くことが検討されてきましたが、生成された応答の事実性を対応するビデオと比較して正確に評価する能力は、確定的に確立されていません。本論文では、ビデオコンテンツの代理として詳細なビデオキャプションを活用する新しいフレームワークを紹介し、言語モデルがこの情報をビデオ質問応答(QA)予測のスコアリングのための支持証拠として組み込むことを可能にします。私たちのアプローチは、ビデオフレームを直接入力とするOpenAI GPT-4Vモデルの報酬メカニズムと強く整合していることを示します。さらに、この特化した報酬をDPOを通じて適用することで、ビデオLMMのビデオQAタスクにおける性能が大幅に向上することを実証します。
English
Preference modeling techniques, such as direct preference optimization (DPO),
has shown effective in enhancing the generalization abilities of large language
model (LLM). However, in tasks involving video instruction-following, providing
informative feedback, especially for detecting hallucinations in generated
responses, remains a significant challenge. Previous studies have explored
using large large multimodal models (LMMs) as reward models to guide preference
modeling, but their ability to accurately assess the factuality of generated
responses compared to corresponding videos has not been conclusively
established. This paper introduces a novel framework that utilizes detailed
video captions as a proxy of video content, enabling language models to
incorporate this information as supporting evidence for scoring video Question
Answering (QA) predictions. Our approach demonstrates robust alignment with
OpenAI GPT-4V model's reward mechanism, which directly takes video frames as
input. Furthermore, we show that applying this tailored reward through DPO
significantly improves the performance of video LMMs on video QA tasks.Summary
AI-Generated Summary