MAD: Модально-адаптивное декодирование для снижения кросс-модальных галлюцинаций в мультимодальных больших языковых моделях
MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models
January 29, 2026
Авторы: Sangyun Chung, Se Yeon Kim, Youngchae Chee, Yong Man Ro
cs.AI
Аннотация
Мультимодальные большие языковые модели (MБЯМ) страдают от кросс-модальных галлюцинаций, когда одна модальность неадекватно влияет на генерацию, связанную с другой, что приводит к созданию недостоверных результатов. Это указывает на более фундаментальный недостаток в управлении межмодальным взаимодействием. Для решения этой проблемы мы предлагаем Модально-Адаптивное декодирование (MAD) — метод, не требующий дообучения, который адаптивно взвешивает модально-специфичные ветви декодирования в зависимости от требований задачи. MAD использует присущую модели способность к самооценке релевантности модальностей путем запроса о том, какие модальности необходимы для каждой задачи. Извлеченные вероятности модальностей затем используются для адаптивного взвешивания контрастных ветвей декодирования, позволяя модели фокусироваться на релевантной информации, подавляя при этом кросс-модальные помехи. Многочисленные эксперименты на CMM и AVHBench демонстрируют, что MAD значительно снижает кросс-модальные галлюцинации в различных аудиовизуальных языковых моделях (улучшения на 7.8% и 2.0% для VideoLLaMA2-AV, на 8.7% и 4.7% для Qwen2.5-Omni). Наш подход показывает, что явное осознание модальностей через самооценку крайне важно для надежного мультимодального мышления, предлагая принципиальное расширение существующих методов контрастного декодирования. Наш код доступен по адресу https://github.com/top-yun/MAD.
English
Multimodal Large Language Models (MLLMs) suffer from cross-modal hallucinations, where one modality inappropriately influences generation about another, leading to fabricated output. This exposes a more fundamental deficiency in modality-interaction control. To address this, we propose Modality-Adaptive Decoding (MAD), a training-free method that adaptively weights modality-specific decoding branches based on task requirements. MAD leverages the model's inherent ability to self-assess modality relevance by querying which modalities are needed for each task. The extracted modality probabilities are then used to adaptively weight contrastive decoding branches, enabling the model to focus on relevant information while suppressing cross-modal interference. Extensive experiments on CMM and AVHBench demonstrate that MAD significantly reduces cross-modal hallucinations across multiple audio-visual language models (7.8\% and 2.0\% improvements for VideoLLaMA2-AV, 8.7\% and 4.7\% improvements for Qwen2.5-Omni). Our approach demonstrates that explicit modality awareness through self-assessment is crucial for robust multimodal reasoning, offering a principled extension to existing contrastive decoding methods. Our code is available at https://github.com/top-yun/MAD{https://github.com/top-yun/MAD}