Robuste multimodale Large Language Models gegen Modalitätskonflikte
Robust Multimodal Large Language Models Against Modality Conflict
July 9, 2025
papers.authors: Zongmeng Zhang, Wengang Zhou, Jie Zhao, Houqiang Li
cs.AI
papers.abstract
Trotz der beeindruckenden Fähigkeiten multimodaler großer Sprachmodelle (MLLMs) in visuell-sprachlichen Aufgaben neigen sie in realen Szenarien zu Halluzinationen. Diese Arbeit untersucht das Phänomen der Halluzination in MLLMs aus der Perspektive des Modalitätenkonflikts. Im Gegensatz zu bestehenden Arbeiten, die sich auf die Konflikte zwischen Modellantworten und Eingaben konzentrieren, untersuchen wir die inhärenten Konflikte in Eingaben aus verschiedenen Modalitäten, die MLLMs in ein Dilemma versetzen und direkt zu Halluzinationen führen. Wir definieren den Modalitätenkonflikt formal und erstellen einen Datensatz namens Multimodal Modality Conflict (MMMC), um dieses Phänomen in visuell-sprachlichen Aufgaben zu simulieren. Drei Methoden basierend auf Prompt-Engineering, überwachtem Feinabgleich und bestärkendem Lernen werden vorgeschlagen, um die durch Modalitätenkonflikt verursachten Halluzinationen zu mildern. Umfangreiche Experimente werden auf dem MMMC-Datensatz durchgeführt, um die Vor- und Nachteile dieser Methoden zu analysieren. Unsere Ergebnisse zeigen, dass die Methode des bestärkenden Lernens die beste Leistung bei der Minderung von Halluzinationen unter Modalitätenkonflikt erzielt, während die Methode des überwachten Feinabgleichs vielversprechende und stabile Leistungen zeigt. Unsere Arbeit beleuchtet den unbeachteten Modalitätenkonflikt, der zu Halluzinationen führt, und liefert weitere Einblicke in die Robustheit von MLLMs.
English
Despite the impressive capabilities of multimodal large language models
(MLLMs) in vision-language tasks, they are prone to hallucinations in
real-world scenarios. This paper investigates the hallucination phenomenon in
MLLMs from the perspective of modality conflict. Unlike existing works focusing
on the conflicts between model responses and inputs, we study the inherent
conflicts in inputs from different modalities that place MLLMs in a dilemma and
directly lead to hallucinations. We formally define the modality conflict and
construct a dataset named Multimodal Modality Conflict (MMMC) to simulate this
phenomenon in vision-language tasks. Three methods based on prompt engineering,
supervised fine-tuning, and reinforcement learning are proposed to alleviate
the hallucination caused by modality conflict. Extensive experiments are
conducted on the MMMC dataset to analyze the merits and demerits of these
methods. Our results show that the reinforcement learning method achieves the
best performance in mitigating the hallucination under modality conflict, while
the supervised fine-tuning method shows promising and stable performance. Our
work sheds light on the unnoticed modality conflict that leads to
hallucinations and provides more insights into the robustness of MLLMs.