Dr. SHAP-AV: Decodificación de Contribuciones Modales Relativas mediante Atribución de Shapley en el Reconocimiento Automático del Habla Audio-Visual

Resumen

El Reconocimiento Audiovisual del Habla (AVSR) aprovecha la información acústica y visual para lograr un reconocimiento robusto en entornos ruidosos. Sin embargo, la forma en que los modelos equilibran estas modalidades sigue sin estar clara. Presentamos Dr. SHAP-AV, un marco que utiliza valores de Shapley para analizar las contribuciones de las modalidades en AVSR. Mediante experimentos en seis modelos, dos puntos de referencia y diversos niveles de SNR, introducimos tres análisis: SHAP Global para el equilibrio general de modalidades, SHAP Generativo para la dinámica de contribuciones durante la decodificación y SHAP de Alineación Temporal para la correspondencia entrada-salida. Nuestros hallazgos revelan que los modelos tienden a depender más de la información visual bajo ruido, pero mantienen contribuciones de audio significativas incluso bajo una degradación severa. El equilibrio de modalidades evoluciona durante la generación, la alineación temporal se mantiene bajo ruido y el SNR es el factor dominante que determina la ponderación de las modalidades. Estos resultados exponen un sesgo persistente hacia el audio, lo que motiva el desarrollo de mecanismos de ponderación de modalidades ad-hoc y la atribución basada en Shapley como un diagnóstico estándar para AVSR.

English

Audio-Visual Speech Recognition (AVSR) leverages both acoustic and visual information for robust recognition under noise. However, how models balance these modalities remains unclear. We present Dr. SHAP-AV, a framework using Shapley values to analyze modality contributions in AVSR. Through experiments on six models across two benchmarks and varying SNR levels, we introduce three analyses: Global SHAP for overall modality balance, Generative SHAP for contribution dynamics during decoding, and Temporal Alignment SHAP for input-output correspondence. Our findings reveal that models shift toward visual reliance under noise yet maintain high audio contributions even under severe degradation. Modality balance evolves during generation, temporal alignment holds under noise, and SNR is the dominant factor driving modality weighting. These findings expose a persistent audio bias, motivating ad-hoc modality-weighting mechanisms and Shapley-based attribution as a standard AVSR diagnostic.

Dr. SHAP-AV: Decodificación de Contribuciones Modales Relativas mediante Atribución de Shapley en el Reconocimiento Automático del Habla Audio-Visual

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Resumen

Support