Otimização Direta de Preferências em Modelos Multimodais de Grande Escala para Vídeo a partir de Recompensas de Modelos de Linguagem
Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward
April 1, 2024
Autores: Ruohong Zhang, Liangke Gui, Zhiqing Sun, Yihao Feng, Keyang Xu, Yuanhan Zhang, Di Fu, Chunyuan Li, Alexander Hauptmann, Yonatan Bisk, Yiming Yang
cs.AI
Resumo
Técnicas de modelagem de preferências, como a otimização direta de preferências (DPO), têm se mostrado eficazes para aprimorar as habilidades de generalização de modelos de linguagem de grande escala (LLM). No entanto, em tarefas que envolvem a execução de instruções baseadas em vídeo, fornecer feedback informativo, especialmente para detectar alucinações em respostas geradas, continua sendo um desafio significativo. Estudos anteriores exploraram o uso de grandes modelos multimodais (LMMs) como modelos de recompensa para orientar a modelagem de preferências, mas sua capacidade de avaliar com precisão a factualidade das respostas geradas em comparação com os vídeos correspondentes ainda não foi conclusivamente estabelecida. Este artigo introduz uma nova estrutura que utiliza legendas detalhadas de vídeo como um proxy do conteúdo do vídeo, permitindo que modelos de linguagem incorporem essas informações como evidências de suporte para pontuar previsões em tarefas de Questionamento e Resposta (QA) baseadas em vídeo. Nossa abordagem demonstra uma forte alinhamento com o mecanismo de recompensa do modelo GPT-4V da OpenAI, que utiliza diretamente quadros de vídeo como entrada. Além disso, mostramos que a aplicação dessa recompensa personalizada por meio da DPO melhora significativamente o desempenho de LMMs em tarefas de QA baseadas em vídeo.
English
Preference modeling techniques, such as direct preference optimization (DPO),
has shown effective in enhancing the generalization abilities of large language
model (LLM). However, in tasks involving video instruction-following, providing
informative feedback, especially for detecting hallucinations in generated
responses, remains a significant challenge. Previous studies have explored
using large large multimodal models (LMMs) as reward models to guide preference
modeling, but their ability to accurately assess the factuality of generated
responses compared to corresponding videos has not been conclusively
established. This paper introduces a novel framework that utilizes detailed
video captions as a proxy of video content, enabling language models to
incorporate this information as supporting evidence for scoring video Question
Answering (QA) predictions. Our approach demonstrates robust alignment with
OpenAI GPT-4V model's reward mechanism, which directly takes video frames as
input. Furthermore, we show that applying this tailored reward through DPO
significantly improves the performance of video LMMs on video QA tasks.