MAD : Décodage Adaptatif aux Modalités pour Atténuer les Hallucinations Intermodales dans les Modèles de Langage de Grande Taille Multimodaux
MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models
January 29, 2026
papers.authors: Sangyun Chung, Se Yeon Kim, Youngchae Chee, Yong Man Ro
cs.AI
papers.abstract
Les modèles de langage multimodaux (MLLM) souffrent d'hallucinations intermodales, où une modalité influence de manière inappropriée la génération concernant une autre, conduisant à une production fabriquée. Cela révèle une déficience plus fondamentale dans le contrôle de l'interaction entre modalités. Pour y remédier, nous proposons le décodage adaptatif aux modalités (MAD), une méthode sans entraînement qui pondère de manière adaptative les branches de décodage spécifiques aux modalités en fonction des exigences de la tâche. MAD exploite la capacité inhérente du modèle à auto-évaluer la pertinence des modalités en interrogeant quelles modalités sont nécessaires pour chaque tâche. Les probabilités de modalité extraites sont ensuite utilisées pour pondérer de manière adaptative les branches de décodage contrastif, permettant au modèle de se concentrer sur les informations pertinentes tout en supprimant les interférences intermodales. Des expériences approfondies sur CMM et AVHBench démontrent que MAD réduit significativement les hallucinations intermodales sur plusieurs modèles de langage audio-visuels (améliorations de 7,8 % et 2,0 % pour VideoLLaMA2-AV, de 8,7 % et 4,7 % pour Qwen2.5-Omni). Notre approche démontre qu'une conscience explicite des modalités par auto-évaluation est cruciale pour un raisonnement multimodal robuste, offrant une extension principielle aux méthodes de décodage contrastif existantes. Notre code est disponible à l'adresse https://github.com/top-yun/MAD.
English
Multimodal Large Language Models (MLLMs) suffer from cross-modal hallucinations, where one modality inappropriately influences generation about another, leading to fabricated output. This exposes a more fundamental deficiency in modality-interaction control. To address this, we propose Modality-Adaptive Decoding (MAD), a training-free method that adaptively weights modality-specific decoding branches based on task requirements. MAD leverages the model's inherent ability to self-assess modality relevance by querying which modalities are needed for each task. The extracted modality probabilities are then used to adaptively weight contrastive decoding branches, enabling the model to focus on relevant information while suppressing cross-modal interference. Extensive experiments on CMM and AVHBench demonstrate that MAD significantly reduces cross-modal hallucinations across multiple audio-visual language models (7.8\% and 2.0\% improvements for VideoLLaMA2-AV, 8.7\% and 4.7\% improvements for Qwen2.5-Omni). Our approach demonstrates that explicit modality awareness through self-assessment is crucial for robust multimodal reasoning, offering a principled extension to existing contrastive decoding methods. Our code is available at https://github.com/top-yun/MAD{https://github.com/top-yun/MAD}