Explorando a Alucinação em Modelos Multimodais de Grande Escala na Compreensão de Vídeos: Benchmark, Análise e Mitigação

Resumo

A alucinação de modelos multimodais de grande escala (LMMs), que fornecem respostas que parecem corretas, mas na verdade são incorretas, limita sua confiabilidade e aplicabilidade. Este artigo tem como objetivo estudar o problema de alucinação dos LMMs na modalidade de vídeo, que é dinâmica e mais desafiadora em comparação com modalidades estáticas como imagens e texto. A partir dessa motivação, primeiro apresentamos um benchmark abrangente denominado HAVEN para avaliar as alucinações dos LMMs em tarefas de compreensão de vídeo. Ele é construído sobre três dimensões, ou seja, causas de alucinação, aspectos de alucinação e formatos de perguntas, resultando em 6 mil perguntas. Em seguida, estudamos quantitativamente 7 fatores influentes sobre as alucinações, por exemplo, duração dos vídeos, tamanhos dos modelos e raciocínio dos modelos, por meio de experimentos com 16 LMMs no benchmark apresentado. Além disso, inspirados por modelos de pensamento recentes como o OpenAI o1, propomos um modelo de pensamento em vídeo para mitigar as alucinações dos LMMs por meio de ajuste fino supervisionado de raciocínio (SRFT) e otimização direta de preferência (TDPO) — onde o SRFT aprimora as capacidades de raciocínio, enquanto o TDPO reduz as alucinações no processo de pensamento. Experimentos e análises extensivos demonstram a eficácia. Notavelmente, ele melhora a linha de base em 7,65% em precisão na avaliação de alucinação e reduz a pontuação de viés em 4,5%. O código e os dados estão disponíveis publicamente em https://github.com/Hongcheng-Gao/HAVEN.

English

The hallucination of large multimodal models (LMMs), providing responses that appear correct but are actually incorrect, limits their reliability and applicability. This paper aims to study the hallucination problem of LMMs in video modality, which is dynamic and more challenging compared to static modalities like images and text. From this motivation, we first present a comprehensive benchmark termed HAVEN for evaluating hallucinations of LMMs in video understanding tasks. It is built upon three dimensions, i.e., hallucination causes, hallucination aspects, and question formats, resulting in 6K questions. Then, we quantitatively study 7 influential factors on hallucinations, e.g., duration time of videos, model sizes, and model reasoning, via experiments of 16 LMMs on the presented benchmark. In addition, inspired by recent thinking models like OpenAI o1, we propose a video-thinking model to mitigate the hallucinations of LMMs via supervised reasoning fine-tuning (SRFT) and direct preference optimization (TDPO)-- where SRFT enhances reasoning capabilities while TDPO reduces hallucinations in the thinking process. Extensive experiments and analyses demonstrate the effectiveness. Remarkably, it improves the baseline by 7.65% in accuracy on hallucination evaluation and reduces the bias score by 4.5%. The code and data are public at https://github.com/Hongcheng-Gao/HAVEN.

Explorando a Alucinação em Modelos Multimodais de Grande Escala na Compreensão de Vídeos: Benchmark, Análise e Mitigação

Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation

Resumo

Support