ChatPaper.aiChatPaper

언어 모델 보상에서 비디오 대형 멀티모달 모델의 직접 선호 최적화

Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward

April 1, 2024
저자: Ruohong Zhang, Liangke Gui, Zhiqing Sun, Yihao Feng, Keyang Xu, Yuanhan Zhang, Di Fu, Chunyuan Li, Alexander Hauptmann, Yonatan Bisk, Yiming Yang
cs.AI

초록

직접 선호도 최적화(Direct Preference Optimization, DPO)와 같은 선호도 모델링 기법은 대규모 언어 모델(LLM)의 일반화 능력을 향상시키는 데 효과적인 것으로 입증되었습니다. 그러나 비디오 명령 수행과 관련된 작업에서는, 특히 생성된 응답에서의 환각(hallucination)을 탐지하는 데 있어 유익한 피드백을 제공하는 것이 여전히 큰 과제로 남아 있습니다. 기존 연구에서는 대규모 다중 모달 모델(LMM)을 보상 모델로 활용하여 선호도 모델링을 안내하는 방법을 탐구했지만, 해당 비디오와 비교하여 생성된 응답의 사실성을 정확히 평가하는 능력은 아직 확실히 입증되지 않았습니다. 본 논문은 비디오 콘텐츠의 대리자로서 상세한 비디오 캡션을 활용하는 새로운 프레임워크를 소개하며, 이를 통해 언어 모델이 비디오 질의응답(QA) 예측에 대한 점수 매김을 위한 지원 증거로 이 정보를 통합할 수 있게 합니다. 우리의 접근 방식은 비디오 프레임을 직접 입력으로 받는 OpenAI GPT-4V 모델의 보상 메커니즘과 강력한 일치를 보여줍니다. 또한, DPO를 통해 이 맞춤형 보상을 적용함으로써 비디오 QA 작업에서 비디오 LMM의 성능이 크게 향상됨을 입증합니다.
English
Preference modeling techniques, such as direct preference optimization (DPO), has shown effective in enhancing the generalization abilities of large language model (LLM). However, in tasks involving video instruction-following, providing informative feedback, especially for detecting hallucinations in generated responses, remains a significant challenge. Previous studies have explored using large large multimodal models (LMMs) as reward models to guide preference modeling, but their ability to accurately assess the factuality of generated responses compared to corresponding videos has not been conclusively established. This paper introduces a novel framework that utilizes detailed video captions as a proxy of video content, enabling language models to incorporate this information as supporting evidence for scoring video Question Answering (QA) predictions. Our approach demonstrates robust alignment with OpenAI GPT-4V model's reward mechanism, which directly takes video frames as input. Furthermore, we show that applying this tailored reward through DPO significantly improves the performance of video LMMs on video QA tasks.

Summary

AI-Generated Summary

PDF121November 26, 2024