Modelos de Linguagem Multimodais Robustos Contra Conflitos de Modalidade
Robust Multimodal Large Language Models Against Modality Conflict
July 9, 2025
Autores: Zongmeng Zhang, Wengang Zhou, Jie Zhao, Houqiang Li
cs.AI
Resumo
Apesar das impressionantes capacidades dos modelos de linguagem multimodal de grande escala (MLLMs) em tarefas de visão e linguagem, eles são propensos a alucinações em cenários do mundo real. Este artigo investiga o fenômeno de alucinação em MLLMs sob a perspectiva do conflito de modalidades. Diferentemente de trabalhos existentes que focam nos conflitos entre as respostas do modelo e as entradas, estudamos os conflitos inerentes nas entradas de diferentes modalidades que colocam os MLLMs em um dilema e diretamente levam a alucinações. Definimos formalmente o conflito de modalidades e construímos um conjunto de dados chamado Multimodal Modality Conflict (MMMC) para simular esse fenômeno em tarefas de visão e linguagem. Três métodos baseados em engenharia de prompts, ajuste fino supervisionado e aprendizado por reforço são propostos para mitigar a alucinação causada pelo conflito de modalidades. Experimentos extensivos são conduzidos no conjunto de dados MMMC para analisar os méritos e deméritos desses métodos. Nossos resultados mostram que o método de aprendizado por reforço alcança o melhor desempenho na mitigação da alucinação sob conflito de modalidades, enquanto o método de ajuste fino supervisionado apresenta desempenho promissor e estável. Nosso trabalho esclarece o conflito de modalidades não notado que leva a alucinações e fornece mais insights sobre a robustez dos MLLMs.
English
Despite the impressive capabilities of multimodal large language models
(MLLMs) in vision-language tasks, they are prone to hallucinations in
real-world scenarios. This paper investigates the hallucination phenomenon in
MLLMs from the perspective of modality conflict. Unlike existing works focusing
on the conflicts between model responses and inputs, we study the inherent
conflicts in inputs from different modalities that place MLLMs in a dilemma and
directly lead to hallucinations. We formally define the modality conflict and
construct a dataset named Multimodal Modality Conflict (MMMC) to simulate this
phenomenon in vision-language tasks. Three methods based on prompt engineering,
supervised fine-tuning, and reinforcement learning are proposed to alleviate
the hallucination caused by modality conflict. Extensive experiments are
conducted on the MMMC dataset to analyze the merits and demerits of these
methods. Our results show that the reinforcement learning method achieves the
best performance in mitigating the hallucination under modality conflict, while
the supervised fine-tuning method shows promising and stable performance. Our
work sheds light on the unnoticed modality conflict that leads to
hallucinations and provides more insights into the robustness of MLLMs.