La Maldición de las Multi-Modalidades: Evaluando Alucinaciones de Modelos Multimodales Grandes a través del Lenguaje, Visual y Audio.
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio
October 16, 2024
Autores: Sicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing
cs.AI
Resumen
Los recientes avances en modelos grandes multimodales (LMMs) han mejorado significativamente el rendimiento en diversas tareas, con esfuerzos continuos para integrar modalidades adicionales como video y audio. Sin embargo, la mayoría de los LMMs existentes siguen siendo vulnerables a las alucinaciones, la discrepancia entre la entrada multimodal factual y la salida textual generada, lo que ha limitado su aplicabilidad en varios escenarios del mundo real. Este artículo presenta la primera investigación sistemática de alucinaciones en LMMs que involucra las tres modalidades más comunes: lenguaje, visual y audio. Nuestro estudio revela dos contribuyentes clave a las alucinaciones: la excesiva dependencia en priors unimodales y correlaciones espurias entre modalidades. Para abordar estos desafíos, introducimos el benchmark La Maldición de las Multi-Modalidades (CMM), que evalúa de manera integral las alucinaciones en LMMs, proporcionando un análisis detallado de sus problemas subyacentes. Nuestros hallazgos resaltan vulnerabilidades clave, incluyendo desequilibrios en la integración de modalidades y sesgos provenientes de los datos de entrenamiento, subrayando la necesidad de un aprendizaje cruzado equilibrado y estrategias mejoradas de mitigación de alucinaciones. Basándonos en nuestras observaciones y hallazgos, sugerimos posibles direcciones de investigación que podrían mejorar la confiabilidad de los LMMs.
English
Recent advancements in large multimodal models (LMMs) have significantly
enhanced performance across diverse tasks, with ongoing efforts to further
integrate additional modalities such as video and audio. However, most existing
LMMs remain vulnerable to hallucinations, the discrepancy between the factual
multimodal input and the generated textual output, which has limited their
applicability in various real-world scenarios. This paper presents the first
systematic investigation of hallucinations in LMMs involving the three most
common modalities: language, visual, and audio. Our study reveals two key
contributors to hallucinations: overreliance on unimodal priors and spurious
inter-modality correlations. To address these challenges, we introduce the
benchmark The Curse of Multi-Modalities (CMM), which comprehensively evaluates
hallucinations in LMMs, providing a detailed analysis of their underlying
issues. Our findings highlight key vulnerabilities, including imbalances in
modality integration and biases from training data, underscoring the need for
balanced cross-modal learning and enhanced hallucination mitigation strategies.
Based on our observations and findings, we suggest potential research
directions that could enhance the reliability of LMMs.Summary
AI-Generated Summary