Modèles de langage multimodaux robustes face aux conflits de modalités
Robust Multimodal Large Language Models Against Modality Conflict
July 9, 2025
papers.authors: Zongmeng Zhang, Wengang Zhou, Jie Zhao, Houqiang Li
cs.AI
papers.abstract
Malgré les capacités impressionnantes des modèles de langage multimodaux de grande taille (MLLMs) dans les tâches vision-langage, ils sont sujets à des hallucinations dans des scénarios réels. Cet article étudie le phénomène d'hallucination dans les MLLMs sous l'angle du conflit de modalités. Contrairement aux travaux existants qui se concentrent sur les conflits entre les réponses du modèle et les entrées, nous examinons les conflits inhérents aux entrées provenant de différentes modalités qui placent les MLLMs dans un dilemme et conduisent directement à des hallucinations. Nous définissons formellement le conflit de modalités et construisons un ensemble de données nommé Multimodal Modality Conflict (MMMC) pour simuler ce phénomène dans les tâches vision-langage. Trois méthodes basées sur l'ingénierie des prompts, le fine-tuning supervisé et l'apprentissage par renforcement sont proposées pour atténuer l'hallucination causée par le conflit de modalités. Des expériences approfondies sont menées sur l'ensemble de données MMMC pour analyser les avantages et les inconvénients de ces méthodes. Nos résultats montrent que la méthode d'apprentissage par renforcement obtient les meilleures performances pour atténuer l'hallucination sous conflit de modalités, tandis que la méthode de fine-tuning supervisé montre des performances prometteuses et stables. Notre travail met en lumière le conflit de modalités méconnu qui conduit à des hallucinations et apporte des éclairages supplémentaires sur la robustesse des MLLMs.
English
Despite the impressive capabilities of multimodal large language models
(MLLMs) in vision-language tasks, they are prone to hallucinations in
real-world scenarios. This paper investigates the hallucination phenomenon in
MLLMs from the perspective of modality conflict. Unlike existing works focusing
on the conflicts between model responses and inputs, we study the inherent
conflicts in inputs from different modalities that place MLLMs in a dilemma and
directly lead to hallucinations. We formally define the modality conflict and
construct a dataset named Multimodal Modality Conflict (MMMC) to simulate this
phenomenon in vision-language tasks. Three methods based on prompt engineering,
supervised fine-tuning, and reinforcement learning are proposed to alleviate
the hallucination caused by modality conflict. Extensive experiments are
conducted on the MMMC dataset to analyze the merits and demerits of these
methods. Our results show that the reinforcement learning method achieves the
best performance in mitigating the hallucination under modality conflict, while
the supervised fine-tuning method shows promising and stable performance. Our
work sheds light on the unnoticed modality conflict that leads to
hallucinations and provides more insights into the robustness of MLLMs.