Устойчивые многомодальные большие языковые модели к конфликтам модальностей
Robust Multimodal Large Language Models Against Modality Conflict
July 9, 2025
Авторы: Zongmeng Zhang, Wengang Zhou, Jie Zhao, Houqiang Li
cs.AI
Аннотация
Несмотря на впечатляющие способности мультимодальных больших языковых моделей (MLLMs) в задачах, связанных с обработкой визуальной и текстовой информации, они склонны к галлюцинациям в реальных сценариях. В данной статье исследуется феномен галлюцинаций в MLLMs с точки зрения конфликта модальностей. В отличие от существующих работ, которые сосредоточены на противоречиях между ответами модели и входными данными, мы изучаем внутренние конфликты во входных данных из различных модальностей, которые ставят MLLMs в затруднительное положение и напрямую приводят к галлюцинациям. Мы формально определяем конфликт модальностей и создаем набор данных под названием Multimodal Modality Conflict (MMMC) для моделирования этого явления в задачах, связанных с обработкой визуальной и текстовой информации. Предлагаются три метода, основанные на инженерии промптов, контролируемом тонком обучении и обучении с подкреплением, для смягчения галлюцинаций, вызванных конфликтом модальностей. Проводятся обширные эксперименты на наборе данных MMMC для анализа достоинств и недостатков этих методов. Наши результаты показывают, что метод обучения с подкреплением демонстрирует наилучшую производительность в снижении галлюцинаций при конфликте модальностей, в то время как метод контролируемого тонкого обучения показывает стабильные и перспективные результаты. Наша работа проливает свет на ранее незамеченный конфликт модальностей, приводящий к галлюцинациям, и предоставляет новые инсайты в отношении устойчивости MLLMs.
English
Despite the impressive capabilities of multimodal large language models
(MLLMs) in vision-language tasks, they are prone to hallucinations in
real-world scenarios. This paper investigates the hallucination phenomenon in
MLLMs from the perspective of modality conflict. Unlike existing works focusing
on the conflicts between model responses and inputs, we study the inherent
conflicts in inputs from different modalities that place MLLMs in a dilemma and
directly lead to hallucinations. We formally define the modality conflict and
construct a dataset named Multimodal Modality Conflict (MMMC) to simulate this
phenomenon in vision-language tasks. Three methods based on prompt engineering,
supervised fine-tuning, and reinforcement learning are proposed to alleviate
the hallucination caused by modality conflict. Extensive experiments are
conducted on the MMMC dataset to analyze the merits and demerits of these
methods. Our results show that the reinforcement learning method achieves the
best performance in mitigating the hallucination under modality conflict, while
the supervised fine-tuning method shows promising and stable performance. Our
work sheds light on the unnoticed modality conflict that leads to
hallucinations and provides more insights into the robustness of MLLMs.