Dr. SHAP-AV: Decodifica dei Contributi Modali Relativi tramite Attribuzione di Shapley nel Riconoscimento Audio-Visivo del Parlato
Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition
March 12, 2026
Autori: Umberto Cappellazzo, Stavros Petridis, Maja Pantic
cs.AI
Abstract
Il riconoscimento audio-visivo del parlato (AVSR) sfrutta sia le informazioni acustiche che visive per un riconoscimento robusto in condizioni di rumore. Tuttavia, il modo in cui i modelli bilanciano queste modalità rimane poco chiaro. Presentiamo Dr. SHAP-AV, un framework che utilizza i valori di Shapley per analizzare i contributi delle modalità nell'AVSR. Attraverso esperimenti su sei modelli, due benchmark e diversi livelli di SNR, introduciamo tre analisi: SHAP Globale per il bilanciamento complessivo delle modalità, SHAP Generativo per la dinamica dei contributi durante la decodifica e SHAP allineamento temporale per la corrispondenza input-output. I nostri risultati rivelano che i modelli tendono a una maggiore dipendenza dal visivo in condizioni di rumore, ma mantengono contributi audio elevati anche sotto grave degrado. Il bilanciamento delle modalità evolve durante la generazione, l'allineamento temporale si mantiene sotto rumore e l'SNR è il fattore dominante che guida la ponderazione delle modalità. Questi risultati evidenziano un persistente bias verso l'audio, motivando meccanismi di ponderazione delle modalità ad-hoc e l'attribuzione basata su Shapley come strumento diagnostico standard per l'AVSR.
English
Audio-Visual Speech Recognition (AVSR) leverages both acoustic and visual information for robust recognition under noise. However, how models balance these modalities remains unclear. We present Dr. SHAP-AV, a framework using Shapley values to analyze modality contributions in AVSR. Through experiments on six models across two benchmarks and varying SNR levels, we introduce three analyses: Global SHAP for overall modality balance, Generative SHAP for contribution dynamics during decoding, and Temporal Alignment SHAP for input-output correspondence. Our findings reveal that models shift toward visual reliance under noise yet maintain high audio contributions even under severe degradation. Modality balance evolves during generation, temporal alignment holds under noise, and SNR is the dominant factor driving modality weighting. These findings expose a persistent audio bias, motivating ad-hoc modality-weighting mechanisms and Shapley-based attribution as a standard AVSR diagnostic.