Ottimizzazione Diretta delle Preferenze per Modelli Multimodali di Grandi Dimensioni su Video tramite Ricompensa da Modelli Linguistici
Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward
April 1, 2024
Autori: Ruohong Zhang, Liangke Gui, Zhiqing Sun, Yihao Feng, Keyang Xu, Yuanhan Zhang, Di Fu, Chunyuan Li, Alexander Hauptmann, Yonatan Bisk, Yiming Yang
cs.AI
Abstract
Le tecniche di modellazione delle preferenze, come l'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO), si sono dimostrate efficaci nel migliorare le capacità di generalizzazione dei modelli linguistici di grandi dimensioni (Large Language Models, LLM). Tuttavia, nei compiti che coinvolgono l'interpretazione di istruzioni video, fornire feedback informativi, specialmente per rilevare allucinazioni nelle risposte generate, rimane una sfida significativa. Studi precedenti hanno esplorato l'uso di grandi modelli multimodali (Large Multimodal Models, LMMs) come modelli di ricompensa per guidare la modellazione delle preferenze, ma la loro capacità di valutare accuratamente la fattualità delle risposte generate rispetto ai video corrispondenti non è stata definitivamente stabilita. Questo articolo introduce un nuovo framework che utilizza didascalie video dettagliate come proxy del contenuto video, consentendo ai modelli linguistici di incorporare queste informazioni come prove a supporto per la valutazione delle previsioni nelle attività di risposta a domande video (Video Question Answering, QA). Il nostro approccio dimostra un forte allineamento con il meccanismo di ricompensa del modello OpenAI GPT-4V, che prende direttamente i fotogrammi video come input. Inoltre, mostriamo che l'applicazione di questa ricompensa personalizzata attraverso la DPO migliora significativamente le prestazioni dei LMMs video nelle attività di QA video.
English
Preference modeling techniques, such as direct preference optimization (DPO),
has shown effective in enhancing the generalization abilities of large language
model (LLM). However, in tasks involving video instruction-following, providing
informative feedback, especially for detecting hallucinations in generated
responses, remains a significant challenge. Previous studies have explored
using large large multimodal models (LMMs) as reward models to guide preference
modeling, but their ability to accurately assess the factuality of generated
responses compared to corresponding videos has not been conclusively
established. This paper introduces a novel framework that utilizes detailed
video captions as a proxy of video content, enabling language models to
incorporate this information as supporting evidence for scoring video Question
Answering (QA) predictions. Our approach demonstrates robust alignment with
OpenAI GPT-4V model's reward mechanism, which directly takes video frames as
input. Furthermore, we show that applying this tailored reward through DPO
significantly improves the performance of video LMMs on video QA tasks.