ChatPaper.aiChatPaper

MAD: マルチモーダル大規模言語モデルにおけるクロスモーダル幻覚を軽減するためのモダリティ適応型デコーディング

MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models

January 29, 2026
著者: Sangyun Chung, Se Yeon Kim, Youngchae Chee, Yong Man Ro
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)は、あるモダリティが別のモダリティに関する生成を不適切に影響させる「クロスモーダル幻覚」に悩まされており、これが虚偽の出力を引き起こす。この問題は、モダリティ間相互作用の制御におけるより根本的な欠陥を露呈している。本論文では、この問題に対処するため、トレーニング不要の手法であるModality-Adaptive Decoding(MAD)を提案する。MADは、タスクごとに必要なモダリティをモデル自身に問い合わせることで、モデルが内在的に持つモダリティ関連性の自己評価能力を活用する。抽出されたモダリティ確率を用いて、コントラスティブデコーディングの分岐を適応的に重み付けし、モデルが関連情報に集中しながらクロスモーダル干渉を抑制することを可能にする。CMMおよびAVHBenchにおける大規模な実験により、MADが複数の音声視覚言語モデルにおいてクロスモーダル幻覚を大幅に軽減することが実証された(VideoLLaMA2-AVで7.8%および2.0%、Qwen2.5-Omniで8.7%および4.7%の改善)。本アプローチは、自己評価を通じた明示的なモダリティ認識が頑健なマルチモーダル推論に不可欠であることを示し、既存のコントラスティブデコーディング手法への原理的な拡張を提供する。コードはhttps://github.com/top-yun/MAD で公開されている。
English
Multimodal Large Language Models (MLLMs) suffer from cross-modal hallucinations, where one modality inappropriately influences generation about another, leading to fabricated output. This exposes a more fundamental deficiency in modality-interaction control. To address this, we propose Modality-Adaptive Decoding (MAD), a training-free method that adaptively weights modality-specific decoding branches based on task requirements. MAD leverages the model's inherent ability to self-assess modality relevance by querying which modalities are needed for each task. The extracted modality probabilities are then used to adaptively weight contrastive decoding branches, enabling the model to focus on relevant information while suppressing cross-modal interference. Extensive experiments on CMM and AVHBench demonstrate that MAD significantly reduces cross-modal hallucinations across multiple audio-visual language models (7.8\% and 2.0\% improvements for VideoLLaMA2-AV, 8.7\% and 4.7\% improvements for Qwen2.5-Omni). Our approach demonstrates that explicit modality awareness through self-assessment is crucial for robust multimodal reasoning, offering a principled extension to existing contrastive decoding methods. Our code is available at https://github.com/top-yun/MAD{https://github.com/top-yun/MAD}
PDF73January 31, 2026