Modelli Linguistici Multimodali Robusti contro il Conflitto di Modalità
Robust Multimodal Large Language Models Against Modality Conflict
July 9, 2025
Autori: Zongmeng Zhang, Wengang Zhou, Jie Zhao, Houqiang Li
cs.AI
Abstract
Nonostante le impressionanti capacità dei modelli linguistici multimodali di grandi dimensioni (MLLMs) nei compiti di visione e linguaggio, essi sono inclini a fenomeni di allucinazione in scenari reali. Questo articolo indaga il fenomeno dell'allucinazione negli MLLMs dal punto di vista del conflitto di modalità. A differenza dei lavori esistenti che si concentrano sui conflitti tra le risposte del modello e gli input, noi studiamo i conflitti intrinseci negli input provenienti da diverse modalità che mettono gli MLLMs in un dilemma e portano direttamente alle allucinazioni. Definiamo formalmente il conflitto di modalità e costruiamo un dataset chiamato Multimodal Modality Conflict (MMMC) per simulare questo fenomeno nei compiti di visione e linguaggio. Vengono proposti tre metodi basati sull'ingegneria dei prompt, il fine-tuning supervisionato e l'apprendimento per rinforzo per alleviare l'allucinazione causata dal conflitto di modalità. Sono condotti esperimenti estensivi sul dataset MMMC per analizzare i pregi e i difetti di questi metodi. I nostri risultati mostrano che il metodo di apprendimento per rinforzo ottiene le migliori prestazioni nel mitigare l'allucinazione sotto conflitto di modalità, mentre il metodo di fine-tuning supervisionato mostra prestazioni promettenti e stabili. Il nostro lavoro getta luce sul conflitto di modalità non notato che porta alle allucinazioni e fornisce ulteriori approfondimenti sulla robustezza degli MLLMs.
English
Despite the impressive capabilities of multimodal large language models
(MLLMs) in vision-language tasks, they are prone to hallucinations in
real-world scenarios. This paper investigates the hallucination phenomenon in
MLLMs from the perspective of modality conflict. Unlike existing works focusing
on the conflicts between model responses and inputs, we study the inherent
conflicts in inputs from different modalities that place MLLMs in a dilemma and
directly lead to hallucinations. We formally define the modality conflict and
construct a dataset named Multimodal Modality Conflict (MMMC) to simulate this
phenomenon in vision-language tasks. Three methods based on prompt engineering,
supervised fine-tuning, and reinforcement learning are proposed to alleviate
the hallucination caused by modality conflict. Extensive experiments are
conducted on the MMMC dataset to analyze the merits and demerits of these
methods. Our results show that the reinforcement learning method achieves the
best performance in mitigating the hallucination under modality conflict, while
the supervised fine-tuning method shows promising and stable performance. Our
work sheds light on the unnoticed modality conflict that leads to
hallucinations and provides more insights into the robustness of MLLMs.