Modelos de Lenguaje Multimodales Robustos frente a Conflictos de Modalidad
Robust Multimodal Large Language Models Against Modality Conflict
July 9, 2025
Autores: Zongmeng Zhang, Wengang Zhou, Jie Zhao, Houqiang Li
cs.AI
Resumen
A pesar de las impresionantes capacidades de los modelos de lenguaje multimodal de gran escala (MLLMs) en tareas de visión y lenguaje, son propensos a alucinaciones en escenarios del mundo real. Este artículo investiga el fenómeno de la alucinación en MLLMs desde la perspectiva del conflicto de modalidades. A diferencia de trabajos existentes que se centran en los conflictos entre las respuestas del modelo y las entradas, estudiamos los conflictos inherentes en las entradas de diferentes modalidades que colocan a los MLLMs en un dilema y conducen directamente a alucinaciones. Definimos formalmente el conflicto de modalidades y construimos un conjunto de datos llamado Conflicto de Modalidades Multimodal (MMMC) para simular este fenómeno en tareas de visión y lenguaje. Se proponen tres métodos basados en ingeniería de prompts, ajuste fino supervisado y aprendizaje por refuerzo para mitigar la alucinación causada por el conflicto de modalidades. Se realizan experimentos exhaustivos en el conjunto de datos MMMC para analizar los méritos y deméritos de estos métodos. Nuestros resultados muestran que el método de aprendizaje por refuerzo logra el mejor rendimiento en la mitigación de la alucinación bajo conflicto de modalidades, mientras que el método de ajuste fino supervisado muestra un rendimiento prometedor y estable. Nuestro trabajo arroja luz sobre el conflicto de modalidades inadvertido que conduce a alucinaciones y proporciona más información sobre la robustez de los MLLMs.
English
Despite the impressive capabilities of multimodal large language models
(MLLMs) in vision-language tasks, they are prone to hallucinations in
real-world scenarios. This paper investigates the hallucination phenomenon in
MLLMs from the perspective of modality conflict. Unlike existing works focusing
on the conflicts between model responses and inputs, we study the inherent
conflicts in inputs from different modalities that place MLLMs in a dilemma and
directly lead to hallucinations. We formally define the modality conflict and
construct a dataset named Multimodal Modality Conflict (MMMC) to simulate this
phenomenon in vision-language tasks. Three methods based on prompt engineering,
supervised fine-tuning, and reinforcement learning are proposed to alleviate
the hallucination caused by modality conflict. Extensive experiments are
conducted on the MMMC dataset to analyze the merits and demerits of these
methods. Our results show that the reinforcement learning method achieves the
best performance in mitigating the hallucination under modality conflict, while
the supervised fine-tuning method shows promising and stable performance. Our
work sheds light on the unnoticed modality conflict that leads to
hallucinations and provides more insights into the robustness of MLLMs.