Ottimizzazione Diretta delle Preferenze per Modelli Multimodali di Grandi Dimensioni su Video tramite Ricompensa da Modelli Linguistici

Abstract

Le tecniche di modellazione delle preferenze, come l'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO), si sono dimostrate efficaci nel migliorare le capacità di generalizzazione dei modelli linguistici di grandi dimensioni (Large Language Models, LLM). Tuttavia, nei compiti che coinvolgono l'interpretazione di istruzioni video, fornire feedback informativi, specialmente per rilevare allucinazioni nelle risposte generate, rimane una sfida significativa. Studi precedenti hanno esplorato l'uso di grandi modelli multimodali (Large Multimodal Models, LMMs) come modelli di ricompensa per guidare la modellazione delle preferenze, ma la loro capacità di valutare accuratamente la fattualità delle risposte generate rispetto ai video corrispondenti non è stata definitivamente stabilita. Questo articolo introduce un nuovo framework che utilizza didascalie video dettagliate come proxy del contenuto video, consentendo ai modelli linguistici di incorporare queste informazioni come prove a supporto per la valutazione delle previsioni nelle attività di risposta a domande video (Video Question Answering, QA). Il nostro approccio dimostra un forte allineamento con il meccanismo di ricompensa del modello OpenAI GPT-4V, che prende direttamente i fotogrammi video come input. Inoltre, mostriamo che l'applicazione di questa ricompensa personalizzata attraverso la DPO migliora significativamente le prestazioni dei LMMs video nelle attività di QA video.

English

Preference modeling techniques, such as direct preference optimization (DPO), has shown effective in enhancing the generalization abilities of large language model (LLM). However, in tasks involving video instruction-following, providing informative feedback, especially for detecting hallucinations in generated responses, remains a significant challenge. Previous studies have explored using large large multimodal models (LMMs) as reward models to guide preference modeling, but their ability to accurately assess the factuality of generated responses compared to corresponding videos has not been conclusively established. This paper introduces a novel framework that utilizes detailed video captions as a proxy of video content, enabling language models to incorporate this information as supporting evidence for scoring video Question Answering (QA) predictions. Our approach demonstrates robust alignment with OpenAI GPT-4V model's reward mechanism, which directly takes video frames as input. Furthermore, we show that applying this tailored reward through DPO significantly improves the performance of video LMMs on video QA tasks.

Ottimizzazione Diretta delle Preferenze per Modelli Multimodali di Grandi Dimensioni su Video tramite Ricompensa da Modelli Linguistici

Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward

Abstract

Support