Проклятие мультимодальности: Оценка галлюцинаций крупных мультимодальных моделей в области языка, зрительных и аудио данных.
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio
October 16, 2024
Авторы: Sicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing
cs.AI
Аннотация
Недавние достижения в области крупных мультимодальных моделей (LMM) значительно улучшили производительность в различных задачах, с продолжающимися усилиями по дальнейшему интегрированию дополнительных модальностей, таких как видео и аудио. Однако большинство существующих LMM по-прежнему уязвимы к галлюцинациям, разрыву между фактическим мультимодальным входом и сгенерированным текстовым выводом, что ограничивает их применимость в различных реальных сценариях. В данной статье представлено первое систематическое исследование галлюцинаций в LMM, включающее три наиболее распространенные модальности: язык, визуальное и аудио. Наше исследование выявляет два ключевых фактора галлюцинаций: чрезмерную зависимость от унимодальных априорных данных и ложные межмодальные корреляции. Для решения этих проблем мы представляем бенчмарк "Проклятие Мульти-Модальностей" (CMM), который всесторонне оценивает галлюцинации в LMM, предоставляя детальный анализ их основных проблем. Наши результаты выявляют ключевые уязвимости, включая дисбалансы в интеграции модальностей и предвзятости от обучающих данных, подчеркивая необходимость сбалансированного кросс-модального обучения и усовершенствованных стратегий смягчения галлюцинаций. Основываясь на наших наблюдениях и результатам, мы предлагаем потенциальные направления исследований, которые могли бы улучшить надежность LMM.
English
Recent advancements in large multimodal models (LMMs) have significantly
enhanced performance across diverse tasks, with ongoing efforts to further
integrate additional modalities such as video and audio. However, most existing
LMMs remain vulnerable to hallucinations, the discrepancy between the factual
multimodal input and the generated textual output, which has limited their
applicability in various real-world scenarios. This paper presents the first
systematic investigation of hallucinations in LMMs involving the three most
common modalities: language, visual, and audio. Our study reveals two key
contributors to hallucinations: overreliance on unimodal priors and spurious
inter-modality correlations. To address these challenges, we introduce the
benchmark The Curse of Multi-Modalities (CMM), which comprehensively evaluates
hallucinations in LMMs, providing a detailed analysis of their underlying
issues. Our findings highlight key vulnerabilities, including imbalances in
modality integration and biases from training data, underscoring the need for
balanced cross-modal learning and enhanced hallucination mitigation strategies.
Based on our observations and findings, we suggest potential research
directions that could enhance the reliability of LMMs.Summary
AI-Generated Summary