ChatPaper.aiChatPaper

Der Fluch der Multi-Modalitäten: Bewertung von Halluzinationen großer multimodaler Modelle über Sprache, visuelle und auditive Inhalte.

The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

October 16, 2024
Autoren: Sicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing
cs.AI

Zusammenfassung

In jüngster Zeit haben bedeutende Fortschritte bei großen multimodalen Modellen (LMMs) die Leistungsfähigkeit bei verschiedenen Aufgaben erheblich verbessert, wobei laufende Bemühungen bestehen, zusätzliche Modalitäten wie Video und Audio weiter zu integrieren. Allerdings bleiben die meisten bestehenden LMMs anfällig für Halluzinationen, also Diskrepanzen zwischen den tatsächlichen multimodalen Eingaben und den generierten textuellen Ausgaben, was ihre Anwendbarkeit in verschiedenen realen Szenarien einschränkt. Diese Arbeit präsentiert die erste systematische Untersuchung von Halluzinationen in LMMs, die die drei häufigsten Modalitäten umfassen: Sprache, visuell und Audio. Unsere Studie zeigt zwei Hauptursachen für Halluzinationen auf: übermäßiges Vertrauen in unimodale Voraussetzungen und irreführende Intermodalitätskorrelationen. Um diesen Herausforderungen zu begegnen, führen wir den Benchmark "Der Fluch der Multi-Modalitäten" (CMM) ein, der Halluzinationen in LMMs umfassend bewertet und eine detaillierte Analyse ihrer zugrunde liegenden Probleme bietet. Unsere Ergebnisse heben Schlüsselanfälligkeiten hervor, darunter Ungleichgewichte in der Modalitätsintegration und Voreingenommenheiten aus den Trainingsdaten, was die Notwendigkeit ausgewogener kreuzmodaler Lernansätze und verbesserter Halluzinationsminderungsstrategien unterstreicht. Basierend auf unseren Beobachtungen und Ergebnissen schlagen wir potenzielle Forschungsrichtungen vor, die die Zuverlässigkeit von LMMs verbessern könnten.
English
Recent advancements in large multimodal models (LMMs) have significantly enhanced performance across diverse tasks, with ongoing efforts to further integrate additional modalities such as video and audio. However, most existing LMMs remain vulnerable to hallucinations, the discrepancy between the factual multimodal input and the generated textual output, which has limited their applicability in various real-world scenarios. This paper presents the first systematic investigation of hallucinations in LMMs involving the three most common modalities: language, visual, and audio. Our study reveals two key contributors to hallucinations: overreliance on unimodal priors and spurious inter-modality correlations. To address these challenges, we introduce the benchmark The Curse of Multi-Modalities (CMM), which comprehensively evaluates hallucinations in LMMs, providing a detailed analysis of their underlying issues. Our findings highlight key vulnerabilities, including imbalances in modality integration and biases from training data, underscoring the need for balanced cross-modal learning and enhanced hallucination mitigation strategies. Based on our observations and findings, we suggest potential research directions that could enhance the reliability of LMMs.

Summary

AI-Generated Summary

PDF322November 16, 2024