MAD: 다중 모달 대규모 언어 모델의 교차 모달 환각 완화를 위한 모달리티 적응 디코딩
MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models
January 29, 2026
저자: Sangyun Chung, Se Yeon Kim, Youngchae Chee, Yong Man Ro
cs.AI
초록
다중모달 대규모 언어 모델(MLLMs)은 교차 모달 환각 현상으로 어려움을 겪는데, 이는 한 모달리티가 다른 모달리티에 대한 생성을 부적절하게 영향하여 허구적인 출력을 초래하는 문제입니다. 이는 모달리티 상호작용 제어의 보다 근본적인 결함을 드러냅니다. 이를 해결하기 위해 우리는 작업 요구사항에 따라 모달리티별 디코딩 분기를 적응적으로 가중치 부여하는 학습 불필요 방법인 Modality-Adaptive Decoding(MAD)을 제안합니다. MAD는 각 작업에 어떤 모달리티가 필요한지 자체 평가함으로써 모델의 내재된 모달리티 관련성 판단 능력을 활용합니다. 추출된 모달리티 확률은 대비 디코딩 분기에 적응적으로 가중치를 부여하는 데 사용되어, 모델이 관련 정보에 집중하면서 교차 모달 간섭을 억제할 수 있게 합니다. CMM과 AVHBench에서의 광범위한 실험을 통해 MAD가 여러 오디오-비주얼 언어 모델에서 교차 모달 환각을 현저히 감소시킴을 입증했습니다(VideoLLaMA2-AV에서 7.8% 및 2.0% 향상, Qwen2.5-Omni에서 8.7% 및 4.7% 향상). 우리의 접근법은 자체 평가를 통한 명시적 모달리티 인식이 강건한 다중모달 추론에 중요하며, 기존 대비 디코딩 방법에 원칙적인 확장을 제공함을 보여줍니다. 우리의 코드는 https://github.com/top-yun/MAD에서 이용 가능합니다.
English
Multimodal Large Language Models (MLLMs) suffer from cross-modal hallucinations, where one modality inappropriately influences generation about another, leading to fabricated output. This exposes a more fundamental deficiency in modality-interaction control. To address this, we propose Modality-Adaptive Decoding (MAD), a training-free method that adaptively weights modality-specific decoding branches based on task requirements. MAD leverages the model's inherent ability to self-assess modality relevance by querying which modalities are needed for each task. The extracted modality probabilities are then used to adaptively weight contrastive decoding branches, enabling the model to focus on relevant information while suppressing cross-modal interference. Extensive experiments on CMM and AVHBench demonstrate that MAD significantly reduces cross-modal hallucinations across multiple audio-visual language models (7.8\% and 2.0\% improvements for VideoLLaMA2-AV, 8.7\% and 4.7\% improvements for Qwen2.5-Omni). Our approach demonstrates that explicit modality awareness through self-assessment is crucial for robust multimodal reasoning, offering a principled extension to existing contrastive decoding methods. Our code is available at https://github.com/top-yun/MAD{https://github.com/top-yun/MAD}