ChatPaper.aiChatPaper

Exploration des hallucinations des grands modèles multimodaux dans la compréhension vidéo : Benchmark, analyse et atténuation

Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation

March 25, 2025
Auteurs: Hongcheng Gao, Jiashu Qu, Jingyi Tang, Baolong Bi, Yue Liu, Hongyu Chen, Li Liang, Li Su, Qingming Huang
cs.AI

Résumé

L'hallucination des grands modèles multimodaux (LMMs), qui fournissent des réponses semblant correctes mais en réalité erronées, limite leur fiabilité et leur applicabilité. Cet article vise à étudier le problème d'hallucination des LMMs dans la modalité vidéo, qui est dynamique et plus complexe que les modalités statiques comme les images et le texte. Motivés par cette problématique, nous présentons d'abord un benchmark complet nommé HAVEN pour évaluer les hallucinations des LMMs dans les tâches de compréhension vidéo. Il est construit autour de trois dimensions, à savoir les causes d'hallucination, les aspects d'hallucination et les formats de questions, aboutissant à 6 000 questions. Ensuite, nous étudions quantitativement 7 facteurs influents sur les hallucinations, tels que la durée des vidéos, la taille des modèles et le raisonnement des modèles, via des expériences menées sur 16 LMMs avec ce benchmark. De plus, inspirés par les modèles de pensée récents comme OpenAI o1, nous proposons un modèle de pensée vidéo pour atténuer les hallucinations des LMMs via un réglage fin supervisé du raisonnement (SRFT) et une optimisation directe des préférences (TDPO) — où le SRFT améliore les capacités de raisonnement tandis que le TDPO réduit les hallucinations dans le processus de pensée. Des expériences et analyses approfondies démontrent l'efficacité de cette approche. De manière remarquable, elle améliore la précision de référence de 7,65 % dans l'évaluation des hallucinations et réduit le score de biais de 4,5 %. Le code et les données sont publics à l'adresse https://github.com/Hongcheng-Gao/HAVEN.
English
The hallucination of large multimodal models (LMMs), providing responses that appear correct but are actually incorrect, limits their reliability and applicability. This paper aims to study the hallucination problem of LMMs in video modality, which is dynamic and more challenging compared to static modalities like images and text. From this motivation, we first present a comprehensive benchmark termed HAVEN for evaluating hallucinations of LMMs in video understanding tasks. It is built upon three dimensions, i.e., hallucination causes, hallucination aspects, and question formats, resulting in 6K questions. Then, we quantitatively study 7 influential factors on hallucinations, e.g., duration time of videos, model sizes, and model reasoning, via experiments of 16 LMMs on the presented benchmark. In addition, inspired by recent thinking models like OpenAI o1, we propose a video-thinking model to mitigate the hallucinations of LMMs via supervised reasoning fine-tuning (SRFT) and direct preference optimization (TDPO)-- where SRFT enhances reasoning capabilities while TDPO reduces hallucinations in the thinking process. Extensive experiments and analyses demonstrate the effectiveness. Remarkably, it improves the baseline by 7.65% in accuracy on hallucination evaluation and reduces the bias score by 4.5%. The code and data are public at https://github.com/Hongcheng-Gao/HAVEN.
PDF314March 26, 2025