MAD: Decodifica Modale-Adattiva per Mitigare le Allucinazioni Cross-Modali nei Modelli Linguistici Multimodali di Grande Dimensione

Abstract

I Modelli Linguistici Multimodali di Grande Dimensione (MLLM) soffrono di allucinazioni cross-modali, in cui una modalità influenza inappropriatamente la generazione relativa a un'altra, portando a un output fabbricato. Questo rivela una carenza più fondamentale nel controllo dell'interazione tra le modalità. Per affrontare questo problema, proponiamo il Decodifica Adattiva alla Modalità (MAD), un metodo che non richiede addestramento e che pondera in modo adattivo i rami di decodifica specifici per modalità in base ai requisiti del compito. MAD sfrutta l'abilità intrinseca del modello di autovalutare la rilevanza della modalità interrogando quali modalità sono necessarie per ogni compito. Le probabilità di modalità estratte vengono quindi utilizzate per ponderare adattivamente i rami di decodifica contrastiva, consentendo al modello di concentrarsi sulle informazioni rilevanti sopprimendo al contempo l'interferenza cross-modale. Esperimenti estensivi su CMM e AVHBench dimostrano che MAD riduce significativamente le allucinazioni cross-modali in molteplici modelli linguistici audiovisivi (miglioramenti del 7,8% e del 2,0% per VideoLLaMA2-AV, miglioramenti dell'8,7% e del 4,7% per Qwen2.5-Omni). Il nostro approccio dimostra che la consapevolezza esplicita della modalità attraverso l'autovalutazione è cruciale per un ragionamento multimodale robusto, offrendo un'estensione principiata ai metodi di decodifica contrastiva esistenti. Il nostro codice è disponibile all'indirizzo https://github.com/top-yun/MAD.

English

Multimodal Large Language Models (MLLMs) suffer from cross-modal hallucinations, where one modality inappropriately influences generation about another, leading to fabricated output. This exposes a more fundamental deficiency in modality-interaction control. To address this, we propose Modality-Adaptive Decoding (MAD), a training-free method that adaptively weights modality-specific decoding branches based on task requirements. MAD leverages the model's inherent ability to self-assess modality relevance by querying which modalities are needed for each task. The extracted modality probabilities are then used to adaptively weight contrastive decoding branches, enabling the model to focus on relevant information while suppressing cross-modal interference. Extensive experiments on CMM and AVHBench demonstrate that MAD significantly reduces cross-modal hallucinations across multiple audio-visual language models (7.8\% and 2.0\% improvements for VideoLLaMA2-AV, 8.7\% and 4.7\% improvements for Qwen2.5-Omni). Our approach demonstrates that explicit modality awareness through self-assessment is crucial for robust multimodal reasoning, offering a principled extension to existing contrastive decoding methods. Our code is available at https://github.com/top-yun/MAD{https://github.com/top-yun/MAD}

MAD: Decodifica Modale-Adattiva per Mitigare le Allucinazioni Cross-Modali nei Modelli Linguistici Multimodali di Grande Dimensione

MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models

Abstract

Support