ChatPaper.aiChatPaper

Dr. SHAP-AV : Décodage des contributions modales relatives via l'attribution de Shapley dans la reconnaissance de la parole audio-visuelle

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

March 12, 2026
Auteurs: Umberto Cappellazzo, Stavros Petridis, Maja Pantic
cs.AI

Résumé

La reconnaissance audio-visuelle de la parole (AVSR) exploite à la fois les informations acoustiques et visuelles pour une reconnaissance robuste en environnement bruité. Cependant, la manière dont les modèles équilibrent ces modalités reste peu claire. Nous présentons Dr. SHAP-AV, un cadre utilisant les valeurs de Shapley pour analyser les contributions des modalités dans l'AVSR. Par des expériences sur six modèles, deux benchmarks et différents niveaux de RSB, nous introduisons trois analyses : SHAP Global pour l'équilibre modal global, SHAP Générative pour la dynamique des contributions durant le décodage, et SHAP d'Alignement Temporel pour la correspondance entrée-sortie. Nos résultats révèlent que les modèles s'orientent vers une dépendance visuelle sous bruit, mais maintiennent une forte contribution audio même en cas de dégradation sévère. L'équilibre modal évolue durant la génération, l'alignement temporel est préservé sous bruit, et le RSB est le facteur dominant influençant la pondération modale. Ces résultats mettent en lumière un biais audio persistant, motivant des mécanismes de pondération modale ad hoc et l'attribution basée sur Shapley comme outil de diagnostic standard pour l'AVSR.
English
Audio-Visual Speech Recognition (AVSR) leverages both acoustic and visual information for robust recognition under noise. However, how models balance these modalities remains unclear. We present Dr. SHAP-AV, a framework using Shapley values to analyze modality contributions in AVSR. Through experiments on six models across two benchmarks and varying SNR levels, we introduce three analyses: Global SHAP for overall modality balance, Generative SHAP for contribution dynamics during decoding, and Temporal Alignment SHAP for input-output correspondence. Our findings reveal that models shift toward visual reliance under noise yet maintain high audio contributions even under severe degradation. Modality balance evolves during generation, temporal alignment holds under noise, and SNR is the dominant factor driving modality weighting. These findings expose a persistent audio bias, motivating ad-hoc modality-weighting mechanisms and Shapley-based attribution as a standard AVSR diagnostic.
PDF22March 15, 2026