ChatPaper.aiChatPaper

La Maledizione delle Multi-Modalità: Valutare le Allucinazioni dei Grandi Modelli Multimodali tra Linguaggio, Visivo e Audio

The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

October 16, 2024
Autori: Sicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing
cs.AI

Abstract

I recenti progressi nei grandi modelli multimodali (LMM) hanno notevolmente migliorato le prestazioni in diverse attività, con sforzi in corso per integrare ulteriori modalità come video e audio. Tuttavia, la maggior parte dei LMM esistenti rimane vulnerabile alle allucinazioni, la discrepanza tra l'input multimodale effettivo e l'output testuale generato, limitando la loro applicabilità in vari scenari reali. Questo articolo presenta la prima indagine sistematica sulle allucinazioni nei LMM che coinvolgono le tre modalità più comuni: linguaggio, visivo e audio. Il nostro studio rivela due principali fattori contribuenti alle allucinazioni: eccessiva dipendenza da priori unimodali e correlazioni spurie tra modalità. Per affrontare queste sfide, introduciamo il benchmark "La Maledizione delle Multi-Modalità" (CMM), che valuta in modo esaustivo le allucinazioni nei LMM, fornendo un'analisi dettagliata dei loro problemi sottostanti. Le nostre scoperte evidenziano vulnerabilità chiave, inclusi squilibri nell'integrazione delle modalità e pregiudizi dai dati di addestramento, sottolineando la necessità di un apprendimento croso-modale bilanciato e strategie potenziate di mitigazione delle allucinazioni. Sulla base delle nostre osservazioni e scoperte, suggeriamo possibili direzioni di ricerca che potrebbero migliorare l'affidabilità dei LMM.
English
Recent advancements in large multimodal models (LMMs) have significantly enhanced performance across diverse tasks, with ongoing efforts to further integrate additional modalities such as video and audio. However, most existing LMMs remain vulnerable to hallucinations, the discrepancy between the factual multimodal input and the generated textual output, which has limited their applicability in various real-world scenarios. This paper presents the first systematic investigation of hallucinations in LMMs involving the three most common modalities: language, visual, and audio. Our study reveals two key contributors to hallucinations: overreliance on unimodal priors and spurious inter-modality correlations. To address these challenges, we introduce the benchmark The Curse of Multi-Modalities (CMM), which comprehensively evaluates hallucinations in LMMs, providing a detailed analysis of their underlying issues. Our findings highlight key vulnerabilities, including imbalances in modality integration and biases from training data, underscoring the need for balanced cross-modal learning and enhanced hallucination mitigation strategies. Based on our observations and findings, we suggest potential research directions that could enhance the reliability of LMMs.

Summary

AI-Generated Summary

PDF322November 16, 2024