La Malédiction des Multi-Modalités : Évaluation des Hallucinations des Grands Modèles Multimodaux à Travers le Langage, le Visuel et l'Audionumérique
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio
October 16, 2024
Auteurs: Sicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing
cs.AI
Résumé
Les récentes avancées dans les grands modèles multimodaux (LMM) ont considérablement amélioré les performances dans diverses tâches, avec des efforts continus pour intégrer davantage de modalités telles que la vidéo et l'audio. Cependant, la plupart des LMM existants restent vulnérables aux hallucinations, la discordance entre l'entrée multimodale factuelle et la production textuelle générée, ce qui a limité leur applicabilité dans divers scénarios réels. Cet article présente la première investigation systématique des hallucinations dans les LMM impliquant les trois modalités les plus courantes : le langage, le visuel et l'audio. Notre étude révèle deux principaux contributeurs aux hallucinations : la trop grande dépendance aux a priori unimodaux et les corrélations inter-modales fallacieuses. Pour relever ces défis, nous introduisons le banc d'essai La Malédiction des Multi-Modalités (CMM), qui évalue de manière exhaustive les hallucinations dans les LMM, fournissant une analyse détaillée de leurs problèmes sous-jacents. Nos résultats mettent en lumière des vulnérabilités clés, y compris des déséquilibres dans l'intégration des modalités et des biais provenant des données d'entraînement, soulignant la nécessité d'un apprentissage croisé équilibré entre les modalités et de stratégies améliorées d'atténuation des hallucinations. Sur la base de nos observations et résultats, nous suggérons des orientations de recherche potentielles qui pourraient améliorer la fiabilité des LMM.
English
Recent advancements in large multimodal models (LMMs) have significantly
enhanced performance across diverse tasks, with ongoing efforts to further
integrate additional modalities such as video and audio. However, most existing
LMMs remain vulnerable to hallucinations, the discrepancy between the factual
multimodal input and the generated textual output, which has limited their
applicability in various real-world scenarios. This paper presents the first
systematic investigation of hallucinations in LMMs involving the three most
common modalities: language, visual, and audio. Our study reveals two key
contributors to hallucinations: overreliance on unimodal priors and spurious
inter-modality correlations. To address these challenges, we introduce the
benchmark The Curse of Multi-Modalities (CMM), which comprehensively evaluates
hallucinations in LMMs, providing a detailed analysis of their underlying
issues. Our findings highlight key vulnerabilities, including imbalances in
modality integration and biases from training data, underscoring the need for
balanced cross-modal learning and enhanced hallucination mitigation strategies.
Based on our observations and findings, we suggest potential research
directions that could enhance the reliability of LMMs.Summary
AI-Generated Summary