マルチモダリティの呪い:言語、視覚、音声を横断する大規模マルチモーダルモデルの幻覚の評価
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio
October 16, 2024
著者: Sicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing
cs.AI
要旨
最近の大規模多モーダルモデル(LMMs)の進歩は、さまざまなタスクでの性能を大幅に向上させ、ビデオやオーディオなどの追加のモダリティをさらに統合する取り組みが続いています。しかし、ほとんどの既存のLMMは幻覚に脆弱であり、事実に基づく多モーダル入力と生成されたテキスト出力との間の不一致が、さまざまな実世界シナリオでの適用範囲を制限しています。本論文では、言語、視覚、およびオーディオという3つの最も一般的なモダリティを含むLMMにおける幻覚の初の体系的調査を提案します。当研究により、幻覚の2つの主要な要因が明らかになりました:単一モーダル事前確率への過度の依存と、見かけのモダリティ間相関。これらの課題に対処するために、幻覚を包括的に評価するベンチマークである「多モダリティの呪い(CMM)」を導入し、LMMにおける幻覚の根本的な問題の詳細な分析を提供します。当研究の結果は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、主要な脆弱性を明らかにし、バランスの取れたクロスモーダル学習と幻覚緩和戦略の強化の必要性を強調しています。私たちの観察と研究結果に基づき、LMMの信頼性を向上させる可能性のある研究方向を提案しています。
English
Recent advancements in large multimodal models (LMMs) have significantly
enhanced performance across diverse tasks, with ongoing efforts to further
integrate additional modalities such as video and audio. However, most existing
LMMs remain vulnerable to hallucinations, the discrepancy between the factual
multimodal input and the generated textual output, which has limited their
applicability in various real-world scenarios. This paper presents the first
systematic investigation of hallucinations in LMMs involving the three most
common modalities: language, visual, and audio. Our study reveals two key
contributors to hallucinations: overreliance on unimodal priors and spurious
inter-modality correlations. To address these challenges, we introduce the
benchmark The Curse of Multi-Modalities (CMM), which comprehensively evaluates
hallucinations in LMMs, providing a detailed analysis of their underlying
issues. Our findings highlight key vulnerabilities, including imbalances in
modality integration and biases from training data, underscoring the need for
balanced cross-modal learning and enhanced hallucination mitigation strategies.
Based on our observations and findings, we suggest potential research
directions that could enhance the reliability of LMMs.Summary
AI-Generated Summary