ChatPaper.aiChatPaper

대형 멀티모달 모델의 비디오 이해에서의 환각 현상 탐구: 벤치마크, 분석 및 완화

Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation

March 25, 2025
저자: Hongcheng Gao, Jiashu Qu, Jingyi Tang, Baolong Bi, Yue Liu, Hongyu Chen, Li Liang, Li Su, Qingming Huang
cs.AI

초록

대규모 멀티모달 모델(LMMs)의 환각 현상, 즉 겉보기에는 정확해 보이지만 실제로는 잘못된 응답을 제공하는 문제는 이들의 신뢰성과 적용 가능성을 제한합니다. 본 논문은 동적인 특성을 가진 비디오 모달리티에서의 LMMs 환각 문제를 연구하는 것을 목표로 합니다. 이는 이미지와 텍스트와 같은 정적 모달리티에 비해 더욱 도전적인 과제입니다. 이러한 동기에서, 우리는 먼저 비디오 이해 작업에서 LMMs의 환각 현상을 평가하기 위한 HAVEN이라는 포괄적인 벤치마크를 제시합니다. 이는 환각 원인, 환각 측면, 질문 형식이라는 세 가지 차원을 기반으로 구축되었으며, 총 6,000개의 질문으로 구성됩니다. 그런 다음, 제시된 벤치마크를 통해 16개의 LMMs에 대한 실험을 통해 비디오의 지속 시간, 모델 크기, 모델 추론 등 환각에 영향을 미치는 7가지 주요 요인을 정량적으로 연구합니다. 또한, OpenAI o1과 같은 최신 사고 모델에서 영감을 받아, 지도 추론 미세 조정(SRFT)과 직접 선호 최적화(TDPO)를 통해 LMMs의 환각 현상을 완화하기 위한 비디오 사고 모델을 제안합니다. 여기서 SRFT는 추론 능력을 강화하고, TDPO는 사고 과정에서의 환각을 줄입니다. 광범위한 실험과 분석을 통해 이의 효과를 입증하였으며, 특히 환각 평가에서 정확도를 7.65% 향상시키고 편향 점수를 4.5% 감소시켰습니다. 코드와 데이터는 https://github.com/Hongcheng-Gao/HAVEN에서 공개되어 있습니다.
English
The hallucination of large multimodal models (LMMs), providing responses that appear correct but are actually incorrect, limits their reliability and applicability. This paper aims to study the hallucination problem of LMMs in video modality, which is dynamic and more challenging compared to static modalities like images and text. From this motivation, we first present a comprehensive benchmark termed HAVEN for evaluating hallucinations of LMMs in video understanding tasks. It is built upon three dimensions, i.e., hallucination causes, hallucination aspects, and question formats, resulting in 6K questions. Then, we quantitatively study 7 influential factors on hallucinations, e.g., duration time of videos, model sizes, and model reasoning, via experiments of 16 LMMs on the presented benchmark. In addition, inspired by recent thinking models like OpenAI o1, we propose a video-thinking model to mitigate the hallucinations of LMMs via supervised reasoning fine-tuning (SRFT) and direct preference optimization (TDPO)-- where SRFT enhances reasoning capabilities while TDPO reduces hallucinations in the thinking process. Extensive experiments and analyses demonstrate the effectiveness. Remarkably, it improves the baseline by 7.65% in accuracy on hallucination evaluation and reduces the bias score by 4.5%. The code and data are public at https://github.com/Hongcheng-Gao/HAVEN.

Summary

AI-Generated Summary

PDF314March 26, 2025