A Maldição das Multi-Modalidades: Avaliando Alucinações de Modelos Multimodais Grandes através de Linguagem, Visual e Áudio.
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio
October 16, 2024
Autores: Sicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing
cs.AI
Resumo
Os avanços recentes em grandes modelos multimodais (LMMs) têm melhorado significativamente o desempenho em diversas tarefas, com esforços contínuos para integrar ainda mais modalidades adicionais, como vídeo e áudio. No entanto, a maioria dos LMMs existentes permanece vulnerável a alucinações, a discrepância entre a entrada multimodal factual e a saída textual gerada, o que tem limitado sua aplicabilidade em vários cenários do mundo real. Este artigo apresenta a primeira investigação sistemática de alucinações em LMMs envolvendo as três modalidades mais comuns: linguagem, visual e áudio. Nosso estudo revela dois principais contribuintes para as alucinações: a dependência excessiva em prioridades unimodais e correlações espúrias entre modalidades. Para lidar com esses desafios, introduzimos o benchmark A Maldição das Multi-Modalidades (CMM), que avalia abrangente as alucinações em LMMs, fornecendo uma análise detalhada de seus problemas subjacentes. Nossas descobertas destacam vulnerabilidades-chave, incluindo desequilíbrios na integração de modalidades e vieses dos dados de treinamento, enfatizando a necessidade de aprendizado cruzado equilibrado entre modalidades e estratégias aprimoradas de mitigação de alucinações. Com base em nossas observações e descobertas, sugerimos direções de pesquisa potenciais que poderiam aprimorar a confiabilidade dos LMMs.
English
Recent advancements in large multimodal models (LMMs) have significantly
enhanced performance across diverse tasks, with ongoing efforts to further
integrate additional modalities such as video and audio. However, most existing
LMMs remain vulnerable to hallucinations, the discrepancy between the factual
multimodal input and the generated textual output, which has limited their
applicability in various real-world scenarios. This paper presents the first
systematic investigation of hallucinations in LMMs involving the three most
common modalities: language, visual, and audio. Our study reveals two key
contributors to hallucinations: overreliance on unimodal priors and spurious
inter-modality correlations. To address these challenges, we introduce the
benchmark The Curse of Multi-Modalities (CMM), which comprehensively evaluates
hallucinations in LMMs, providing a detailed analysis of their underlying
issues. Our findings highlight key vulnerabilities, including imbalances in
modality integration and biases from training data, underscoring the need for
balanced cross-modal learning and enhanced hallucination mitigation strategies.
Based on our observations and findings, we suggest potential research
directions that could enhance the reliability of LMMs.Summary
AI-Generated Summary