ChatPaper.aiChatPaper

Dr. SHAP-AV: Het decoderen van relatieve modaliteitsbijdragen via Shapley-attributie in audio-visuele spraakherkenning

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

March 12, 2026
Auteurs: Umberto Cappellazzo, Stavros Petridis, Maja Pantic
cs.AI

Samenvatting

Audio-Visuele Spraakherkenning (AVSR) maakt gebruik van zowel akoestische als visuele informatie voor robuuste herkenning in rumoerige omstandigheden. Hoe modellen deze modaliteiten echter balanceren, blijft onduidelijk. Wij presenteren Dr. SHAP-AV, een raamwerk dat Shapley-waarden gebruikt om modale bijdragen in AVSR te analyseren. Via experimenten met zes modellen op twee benchmarks en variërende SNR-niveaus introduceren wij drie analyses: Global SHAP voor de algehele modale balans, Generative SHAP voor de dynamiek van bijdragen tijdens decodering, en Temporal Alignment SHAP voor de input-output-correspondentie. Onze bevindingen onthullen dat modellen onder ruis verschuiven naar visuele afhankelijkheid, maar toch hoge audio-bijdragen behouden, zelfs onder ernstige degradatie. De modale balans evolueert tijdens generatie, temporele uitlijning blijft onder ruis behouden, en SNR is de dominante factor die de modale weging drijft. Deze bevindingen leggen een hardnekkige audio-vooringenomenheid bloot, wat pleit voor *ad-hoc* mechanismen voor modale weging en op Shapley gebaseerde attributie als een standaard AVSR-diagnostiek.
English
Audio-Visual Speech Recognition (AVSR) leverages both acoustic and visual information for robust recognition under noise. However, how models balance these modalities remains unclear. We present Dr. SHAP-AV, a framework using Shapley values to analyze modality contributions in AVSR. Through experiments on six models across two benchmarks and varying SNR levels, we introduce three analyses: Global SHAP for overall modality balance, Generative SHAP for contribution dynamics during decoding, and Temporal Alignment SHAP for input-output correspondence. Our findings reveal that models shift toward visual reliance under noise yet maintain high audio contributions even under severe degradation. Modality balance evolves during generation, temporal alignment holds under noise, and SNR is the dominant factor driving modality weighting. These findings expose a persistent audio bias, motivating ad-hoc modality-weighting mechanisms and Shapley-based attribution as a standard AVSR diagnostic.
PDF32March 24, 2026