Robuuste Multimodale Grote Taalmodellen tegen Modale Conflicten
Robust Multimodal Large Language Models Against Modality Conflict
July 9, 2025
Auteurs: Zongmeng Zhang, Wengang Zhou, Jie Zhao, Houqiang Li
cs.AI
Samenvatting
Ondanks de indrukwekkende capaciteiten van multimodale grote taalmodellen (MLLMs) in visie-taaltaken, zijn ze gevoelig voor hallucinaties in realistische scenario's. Dit artikel onderzoekt het hallucinatieverschijnsel in MLLMs vanuit het perspectief van modale conflicten. In tegenstelling tot bestaande werken die zich richten op de conflicten tussen modelresponsen en invoer, bestuderen we de inherente conflicten in invoer van verschillende modaliteiten die MLLMs in een dilemma plaatsen en direct leiden tot hallucinaties. We definiëren formeel het modale conflict en construeren een dataset genaamd Multimodal Modality Conflict (MMMC) om dit fenomeen in visie-taaltaken te simuleren. Drie methoden gebaseerd op prompt engineering, supervised fine-tuning en reinforcement learning worden voorgesteld om de hallucinatie veroorzaakt door modale conflicten te verminderen. Uitgebreide experimenten worden uitgevoerd op de MMMC-dataset om de voor- en nadelen van deze methoden te analyseren. Onze resultaten tonen aan dat de reinforcement learning-methode de beste prestaties behaalt in het verminderen van hallucinaties onder modale conflicten, terwijl de supervised fine-tuning-methode veelbelovende en stabiele prestaties vertoont. Ons werk werpt licht op het onopgemerkte modale conflict dat leidt tot hallucinaties en biedt meer inzichten in de robuustheid van MLLMs.
English
Despite the impressive capabilities of multimodal large language models
(MLLMs) in vision-language tasks, they are prone to hallucinations in
real-world scenarios. This paper investigates the hallucination phenomenon in
MLLMs from the perspective of modality conflict. Unlike existing works focusing
on the conflicts between model responses and inputs, we study the inherent
conflicts in inputs from different modalities that place MLLMs in a dilemma and
directly lead to hallucinations. We formally define the modality conflict and
construct a dataset named Multimodal Modality Conflict (MMMC) to simulate this
phenomenon in vision-language tasks. Three methods based on prompt engineering,
supervised fine-tuning, and reinforcement learning are proposed to alleviate
the hallucination caused by modality conflict. Extensive experiments are
conducted on the MMMC dataset to analyze the merits and demerits of these
methods. Our results show that the reinforcement learning method achieves the
best performance in mitigating the hallucination under modality conflict, while
the supervised fine-tuning method shows promising and stable performance. Our
work sheds light on the unnoticed modality conflict that leads to
hallucinations and provides more insights into the robustness of MLLMs.