Direkte Präferenzoptimierung großer multimodaler Videomodelle aus der Belohnung von Sprachmodellen
Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward
April 1, 2024
Autoren: Ruohong Zhang, Liangke Gui, Zhiqing Sun, Yihao Feng, Keyang Xu, Yuanhan Zhang, Di Fu, Chunyuan Li, Alexander Hauptmann, Yonatan Bisk, Yiming Yang
cs.AI
Zusammenfassung
Präferenzmodellierungstechniken, wie die direkte Präferenzoptimierung (DPO), haben sich als wirksam erwiesen, um die Verallgemeinerungsfähigkeiten großer Sprachmodelle (LLM) zu verbessern. Bei Aufgaben, die das Befolgen von Videoanleitungen erfordern und insbesondere bei der Bereitstellung von informativem Feedback, um Halluzinationen in generierten Antworten zu erkennen, bleibt eine bedeutende Herausforderung bestehen. Frühere Studien haben untersucht, die Verwendung großer multimodaler Modelle (LMMs) als Belohnungsmodelle zur Anleitung der Präferenzmodellierung zu nutzen, jedoch wurde ihre Fähigkeit, die Faktizität generierter Antworten im Vergleich zu entsprechenden Videos genau zu bewerten, noch nicht abschließend festgestellt. Dieser Artikel stellt ein neuartiges Framework vor, das detaillierte Videobeschreibungen als Proxy für den Videoinhalt verwendet, um es Sprachmodellen zu ermöglichen, diese Informationen als unterstützende Beweise zur Bewertung von Video-Frage-Antwort (QA)-Vorhersagen zu integrieren. Unser Ansatz zeigt eine robuste Ausrichtung mit dem Belohnungsmechanismus des OpenAI GPT-4V-Modells, das direkt Videoframes als Eingabe verwendet. Darüber hinaus zeigen wir, dass die Anwendung dieser maßgeschneiderten Belohnung durch DPO die Leistung von Video-LMMs bei Video-QA-Aufgaben signifikant verbessert.
English
Preference modeling techniques, such as direct preference optimization (DPO),
has shown effective in enhancing the generalization abilities of large language
model (LLM). However, in tasks involving video instruction-following, providing
informative feedback, especially for detecting hallucinations in generated
responses, remains a significant challenge. Previous studies have explored
using large large multimodal models (LMMs) as reward models to guide preference
modeling, but their ability to accurately assess the factuality of generated
responses compared to corresponding videos has not been conclusively
established. This paper introduces a novel framework that utilizes detailed
video captions as a proxy of video content, enabling language models to
incorporate this information as supporting evidence for scoring video Question
Answering (QA) predictions. Our approach demonstrates robust alignment with
OpenAI GPT-4V model's reward mechanism, which directly takes video frames as
input. Furthermore, we show that applying this tailored reward through DPO
significantly improves the performance of video LMMs on video QA tasks.Summary
AI-Generated Summary