ChatPaper.aiChatPaper

Dr. SHAP-AV: Dekodierung relativer Modalitätsbeiträge durch Shapley-Attribution in der audio-visuellen Spracherkennung

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

March 12, 2026
Autoren: Umberto Cappellazzo, Stavros Petridis, Maja Pantic
cs.AI

Zusammenfassung

Audiovisuelle Spracherkennung (AVSR) nutzt sowohl akustische als auch visuelle Informationen, um eine robuste Erkennung unter Rauschen zu ermöglichen. Wie Modelle diese Modalitäten jedoch gewichten, bleibt unklar. Wir stellen Dr. SHAP-AV vor, ein Framework, das Shapley-Werte zur Analyse des Modalitätenbeitrags in AVSR verwendet. Anhand von Experimenten mit sechs Modellen über zwei Benchmarks und verschiedene SNR-Stufen hinweg führen wir drei Analysen ein: Global SHAP für die allgemeine Modalitätengewichtung, Generative SHAP für die Dynamik der Beiträge während der Decodierung und Temporal Alignment SHAP für die Input-Output-Korrespondenz. Unsere Ergebnisse zeigen, dass Modelle bei Rauschen vermehrt auf visuelle Informationen zurückgreifen, aber dennoch einen hohen Audioanteil selbst bei starker Degradierung beibehalten. Die Modalitätengewichtung verändert sich während der Generierung, die zeitliche Ausrichtung bleibt unter Rauschen erhalten, und das SNR ist der dominante Faktor für die Modalitätengewichtung. Diese Erkenntnisse offenbaren eine anhaltende Audio-Präferenz, was ad-hoc Modalitäten-Gewichtungsmechanismen und Shapley-basierte Attributionsverfahren als Standarddiagnosewerkzeug für AVSR nahelegt.
English
Audio-Visual Speech Recognition (AVSR) leverages both acoustic and visual information for robust recognition under noise. However, how models balance these modalities remains unclear. We present Dr. SHAP-AV, a framework using Shapley values to analyze modality contributions in AVSR. Through experiments on six models across two benchmarks and varying SNR levels, we introduce three analyses: Global SHAP for overall modality balance, Generative SHAP for contribution dynamics during decoding, and Temporal Alignment SHAP for input-output correspondence. Our findings reveal that models shift toward visual reliance under noise yet maintain high audio contributions even under severe degradation. Modality balance evolves during generation, temporal alignment holds under noise, and SNR is the dominant factor driving modality weighting. These findings expose a persistent audio bias, motivating ad-hoc modality-weighting mechanisms and Shapley-based attribution as a standard AVSR diagnostic.
PDF22March 15, 2026