VideoHallucer : Évaluation des hallucinations intrinsèques et extrinsèques dans les grands modèles vidéo-texte
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models
June 24, 2024
Auteurs: Yuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, Zilong Zheng
cs.AI
Résumé
Les récents progrès des modèles de langage multimodaux de grande taille (MLLMs) ont étendu leurs capacités à la compréhension vidéo. Cependant, ces modèles sont souvent affectés par des "hallucinations", où un contenu non pertinent ou absurde est généré, s'écartant du contexte réel de la vidéo. Ce travail présente VideoHallucer, le premier benchmark complet pour la détection d'hallucinations dans les grands modèles vidéo-langage (LVLMs). VideoHallucer catégorise les hallucinations en deux types principaux : intrinsèques et extrinsèques, offrant des sous-catégories supplémentaires pour une analyse détaillée, incluant les hallucinations d'objet-relation, temporelles, de détails sémantiques, factuelles extrinsèques et non factuelles extrinsèques. Nous adoptons une méthode de question-réponse vidéo binaire et antagoniste pour une évaluation complète, où des paires de questions basiques et hallucinées sont élaborées stratégiquement. En évaluant onze LVLMs sur VideoHallucer, nous révélons que i) la majorité des modèles actuels présentent des problèmes significatifs avec les hallucinations ; ii) bien que l'augmentation des jeux de données et des paramètres améliore la capacité des modèles à détecter les indices visuels basiques et les contre-factuels, cela apporte un bénéfice limité pour la détection des hallucinations factuelles extrinsèques ; iii) les modèles existants sont plus aptes à détecter les faits qu'à identifier les hallucinations. En sous-produit, ces analyses guident également le développement de notre cadre auto-PEP, atteignant une amélioration moyenne de 5,38 % dans la résistance aux hallucinations pour toutes les architectures de modèles.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have extended
their capabilities to video understanding. Yet, these models are often plagued
by "hallucinations", where irrelevant or nonsensical content is generated,
deviating from the actual video context. This work introduces VideoHallucer,
the first comprehensive benchmark for hallucination detection in large
video-language models (LVLMs). VideoHallucer categorizes hallucinations into
two main types: intrinsic and extrinsic, offering further subcategories for
detailed analysis, including object-relation, temporal, semantic detail,
extrinsic factual, and extrinsic non-factual hallucinations. We adopt an
adversarial binary VideoQA method for comprehensive evaluation, where pairs of
basic and hallucinated questions are crafted strategically. By evaluating
eleven LVLMs on VideoHallucer, we reveal that i) the majority of current models
exhibit significant issues with hallucinations; ii) while scaling datasets and
parameters improves models' ability to detect basic visual cues and
counterfactuals, it provides limited benefit for detecting extrinsic factual
hallucinations; iii) existing models are more adept at detecting facts than
identifying hallucinations. As a byproduct, these analyses further instruct the
development of our self-PEP framework, achieving an average of 5.38%
improvement in hallucination resistance across all model architectures.Summary
AI-Generated Summary