MAD: Decodificación Adaptativa a la Modalidad para Mitigar Alucinaciones Cross-Modal en Modelos de Lenguaje Grandes Multimodales
MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models
January 29, 2026
Autores: Sangyun Chung, Se Yeon Kim, Youngchae Chee, Yong Man Ro
cs.AI
Resumen
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) sufren de alucinaciones cruzadas entre modalidades, donde una modalidad influye inapropiadamente en la generación de contenido sobre otra, lo que conduce a resultados fabricados. Esto expone una deficiencia más fundamental en el control de la interacción entre modalidades. Para abordar este problema, proponemos Decodificación Adaptativa a la Modalidad (MAD), un método que no requiere entrenamiento y que pondera de forma adaptativa las ramas de decodificación específicas de cada modalidad según los requisitos de la tarea. MAD aprovecha la capacidad inherente del modelo para autoevaluar la relevancia de las modalidades consultando qué modalidades son necesarias para cada tarea. Las probabilidades de modalidad extraídas se utilizan luego para ponderar de forma adaptativa las ramas de decodificación contrastiva, permitiendo que el modelo se centre en la información relevante mientras suprime la interferencia cruzada entre modalidades. Experimentos exhaustivos en CMM y AVHBench demuestran que MAD reduce significativamente las alucinaciones cruzadas entre modalidades en múltiples modelos de lenguaje audiovisual (mejoras del 7.8% y 2.0% para VideoLLaMA2-AV, y del 8.7% y 4.7% para Qwen2.5-Omni). Nuestro enfoque demuestra que la conciencia explícita de la modalidad a través de la autoevaluación es crucial para un razonamiento multimodal robusto, ofreciendo una extensión fundamentada a los métodos existentes de decodificación contrastiva. Nuestro código está disponible en https://github.com/top-yun/MAD.
English
Multimodal Large Language Models (MLLMs) suffer from cross-modal hallucinations, where one modality inappropriately influences generation about another, leading to fabricated output. This exposes a more fundamental deficiency in modality-interaction control. To address this, we propose Modality-Adaptive Decoding (MAD), a training-free method that adaptively weights modality-specific decoding branches based on task requirements. MAD leverages the model's inherent ability to self-assess modality relevance by querying which modalities are needed for each task. The extracted modality probabilities are then used to adaptively weight contrastive decoding branches, enabling the model to focus on relevant information while suppressing cross-modal interference. Extensive experiments on CMM and AVHBench demonstrate that MAD significantly reduces cross-modal hallucinations across multiple audio-visual language models (7.8\% and 2.0\% improvements for VideoLLaMA2-AV, 8.7\% and 4.7\% improvements for Qwen2.5-Omni). Our approach demonstrates that explicit modality awareness through self-assessment is crucial for robust multimodal reasoning, offering a principled extension to existing contrastive decoding methods. Our code is available at https://github.com/top-yun/MAD{https://github.com/top-yun/MAD}