Modèles de langage multimodaux robustes face aux conflits de modalités

papers.abstract

Malgré les capacités impressionnantes des modèles de langage multimodaux de grande taille (MLLMs) dans les tâches vision-langage, ils sont sujets à des hallucinations dans des scénarios réels. Cet article étudie le phénomène d'hallucination dans les MLLMs sous l'angle du conflit de modalités. Contrairement aux travaux existants qui se concentrent sur les conflits entre les réponses du modèle et les entrées, nous examinons les conflits inhérents aux entrées provenant de différentes modalités qui placent les MLLMs dans un dilemme et conduisent directement à des hallucinations. Nous définissons formellement le conflit de modalités et construisons un ensemble de données nommé Multimodal Modality Conflict (MMMC) pour simuler ce phénomène dans les tâches vision-langage. Trois méthodes basées sur l'ingénierie des prompts, le fine-tuning supervisé et l'apprentissage par renforcement sont proposées pour atténuer l'hallucination causée par le conflit de modalités. Des expériences approfondies sont menées sur l'ensemble de données MMMC pour analyser les avantages et les inconvénients de ces méthodes. Nos résultats montrent que la méthode d'apprentissage par renforcement obtient les meilleures performances pour atténuer l'hallucination sous conflit de modalités, tandis que la méthode de fine-tuning supervisé montre des performances prometteuses et stables. Notre travail met en lumière le conflit de modalités méconnu qui conduit à des hallucinations et apporte des éclairages supplémentaires sur la robustesse des MLLMs.

English

Despite the impressive capabilities of multimodal large language models (MLLMs) in vision-language tasks, they are prone to hallucinations in real-world scenarios. This paper investigates the hallucination phenomenon in MLLMs from the perspective of modality conflict. Unlike existing works focusing on the conflicts between model responses and inputs, we study the inherent conflicts in inputs from different modalities that place MLLMs in a dilemma and directly lead to hallucinations. We formally define the modality conflict and construct a dataset named Multimodal Modality Conflict (MMMC) to simulate this phenomenon in vision-language tasks. Three methods based on prompt engineering, supervised fine-tuning, and reinforcement learning are proposed to alleviate the hallucination caused by modality conflict. Extensive experiments are conducted on the MMMC dataset to analyze the merits and demerits of these methods. Our results show that the reinforcement learning method achieves the best performance in mitigating the hallucination under modality conflict, while the supervised fine-tuning method shows promising and stable performance. Our work sheds light on the unnoticed modality conflict that leads to hallucinations and provides more insights into the robustness of MLLMs.

Modèles de langage multimodaux robustes face aux conflits de modalités

Robust Multimodal Large Language Models Against Modality Conflict

papers.abstract

Support