Explorando a Alucinação em Modelos Multimodais de Grande Escala na Compreensão de Vídeos: Benchmark, Análise e Mitigação
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation
March 25, 2025
Autores: Hongcheng Gao, Jiashu Qu, Jingyi Tang, Baolong Bi, Yue Liu, Hongyu Chen, Li Liang, Li Su, Qingming Huang
cs.AI
Resumo
A alucinação de modelos multimodais de grande escala (LMMs), que fornecem respostas que parecem corretas, mas na verdade são incorretas, limita sua confiabilidade e aplicabilidade. Este artigo tem como objetivo estudar o problema de alucinação dos LMMs na modalidade de vídeo, que é dinâmica e mais desafiadora em comparação com modalidades estáticas como imagens e texto. A partir dessa motivação, primeiro apresentamos um benchmark abrangente denominado HAVEN para avaliar as alucinações dos LMMs em tarefas de compreensão de vídeo. Ele é construído sobre três dimensões, ou seja, causas de alucinação, aspectos de alucinação e formatos de perguntas, resultando em 6 mil perguntas. Em seguida, estudamos quantitativamente 7 fatores influentes sobre as alucinações, por exemplo, duração dos vídeos, tamanhos dos modelos e raciocínio dos modelos, por meio de experimentos com 16 LMMs no benchmark apresentado. Além disso, inspirados por modelos de pensamento recentes como o OpenAI o1, propomos um modelo de pensamento em vídeo para mitigar as alucinações dos LMMs por meio de ajuste fino supervisionado de raciocínio (SRFT) e otimização direta de preferência (TDPO) — onde o SRFT aprimora as capacidades de raciocínio, enquanto o TDPO reduz as alucinações no processo de pensamento. Experimentos e análises extensivos demonstram a eficácia. Notavelmente, ele melhora a linha de base em 7,65% em precisão na avaliação de alucinação e reduz a pontuação de viés em 4,5%. O código e os dados estão disponíveis publicamente em https://github.com/Hongcheng-Gao/HAVEN.
English
The hallucination of large multimodal models (LMMs), providing responses that
appear correct but are actually incorrect, limits their reliability and
applicability. This paper aims to study the hallucination problem of LMMs in
video modality, which is dynamic and more challenging compared to static
modalities like images and text. From this motivation, we first present a
comprehensive benchmark termed HAVEN for evaluating hallucinations of LMMs in
video understanding tasks. It is built upon three dimensions, i.e.,
hallucination causes, hallucination aspects, and question formats, resulting in
6K questions. Then, we quantitatively study 7 influential factors on
hallucinations, e.g., duration time of videos, model sizes, and model
reasoning, via experiments of 16 LMMs on the presented benchmark. In addition,
inspired by recent thinking models like OpenAI o1, we propose a video-thinking
model to mitigate the hallucinations of LMMs via supervised reasoning
fine-tuning (SRFT) and direct preference optimization (TDPO)-- where SRFT
enhances reasoning capabilities while TDPO reduces hallucinations in the
thinking process. Extensive experiments and analyses demonstrate the
effectiveness. Remarkably, it improves the baseline by 7.65% in accuracy on
hallucination evaluation and reduces the bias score by 4.5%. The code and data
are public at https://github.com/Hongcheng-Gao/HAVEN.Summary
AI-Generated Summary