MAD: Decodificação Adaptativa à Modalidade para Mitigar Alucinações Intermodais em Modelos de Linguagem Grandes Multimodais

Resumo

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) sofrem de alucinações cruzadas entre modalidades, nas quais uma modalidade influencia inapropriadamente a geração de conteúdo sobre outra, resultando em saídas fabricadas. Isso expõe uma deficiência mais fundamental no controle da intermodalidade. Para resolver isso, propomos a Decodagem Adaptativa de Modalidade (MAD), um método livre de treinamento que pondera adaptativamente ramos de decodagem específicos por modalidade com base nos requisitos da tarefa. O MAD aproveita a capacidade inerente do modelo de autoavaliar a relevância da modalidade consultando quais modalidades são necessárias para cada tarefa. As probabilidades de modalidade extraídas são então usadas para ponderar adaptativamente os ramos de decodagem contrastiva, permitindo que o modelo se concentre em informações relevantes enquanto suprime a interferência intermodal. Experimentos extensivos no CMM e AVHBench demonstram que o MAD reduz significativamente as alucinações cruzadas entre modalidades em vários modelos de linguagem audiovisual (melhorias de 7,8% e 2,0% para VideoLLaMA2-AV, 8,7% e 4,7% para Qwen2.5-Omni). Nossa abordagem demonstra que a consciência explícita da modalidade por meio da autoavaliação é crucial para o raciocínio multimodal robusto, oferecendo uma extensão fundamentada aos métodos existentes de decodagem contrastiva. Nosso código está disponível em https://github.com/top-yun/MAD.

English

Multimodal Large Language Models (MLLMs) suffer from cross-modal hallucinations, where one modality inappropriately influences generation about another, leading to fabricated output. This exposes a more fundamental deficiency in modality-interaction control. To address this, we propose Modality-Adaptive Decoding (MAD), a training-free method that adaptively weights modality-specific decoding branches based on task requirements. MAD leverages the model's inherent ability to self-assess modality relevance by querying which modalities are needed for each task. The extracted modality probabilities are then used to adaptively weight contrastive decoding branches, enabling the model to focus on relevant information while suppressing cross-modal interference. Extensive experiments on CMM and AVHBench demonstrate that MAD significantly reduces cross-modal hallucinations across multiple audio-visual language models (7.8\% and 2.0\% improvements for VideoLLaMA2-AV, 8.7\% and 4.7\% improvements for Qwen2.5-Omni). Our approach demonstrates that explicit modality awareness through self-assessment is crucial for robust multimodal reasoning, offering a principled extension to existing contrastive decoding methods. Our code is available at https://github.com/top-yun/MAD{https://github.com/top-yun/MAD}

MAD: Decodificação Adaptativa à Modalidade para Mitigar Alucinações Intermodais em Modelos de Linguagem Grandes Multimodais

MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models

Resumo

Support