Доктор SHAP-AV: Декодирование относительного вклада модальностей с помощью атрибуции Шепли в аудиовизуальном распознавании речи
Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition
March 12, 2026
Авторы: Umberto Cappellazzo, Stavros Petridis, Maja Pantic
cs.AI
Аннотация
Аудиовизуальное распознавание речи (AVSR) использует как акустическую, так и визуальную информацию для обеспечения устойчивого распознавания в условиях шума. Однако то, как модели балансируют эти модальности, остается неясным. Мы представляем Dr. SHAP-AV — фреймворк, использующий значения Шепли для анализа вклада модальностей в AVSR. В ходе экспериментов с шестью моделями на двух бенчмарках и при различных уровнях отношения сигнал-шум (SNR) мы вводим три типа анализа: Global SHAP для оценки общего баланса модальностей, Generative SHAP для изучения динамики вклада во время декодирования и Temporal Alignment SHAP для соответствия входных и выходных данных. Наши результаты показывают, что модели смещаются в сторону reliance на визуальную информацию в условиях шума, но сохраняют высокий вклад аудио даже при значительной деградации сигнала. Баланс модальностей эволюционирует в процессе генерации, временное соответствие сохраняется в условиях шума, а SNR является доминирующим фактором, определяющим взвешивание модальностей. Эти результаты выявляют устойчивую аудиальную смещенность, что обосновывает необходимость разработки адаптивных механизмов взвешивания модальностей и использования атрибуции на основе Шепли в качестве стандартного диагностического инструмента для AVSR.
English
Audio-Visual Speech Recognition (AVSR) leverages both acoustic and visual information for robust recognition under noise. However, how models balance these modalities remains unclear. We present Dr. SHAP-AV, a framework using Shapley values to analyze modality contributions in AVSR. Through experiments on six models across two benchmarks and varying SNR levels, we introduce three analyses: Global SHAP for overall modality balance, Generative SHAP for contribution dynamics during decoding, and Temporal Alignment SHAP for input-output correspondence. Our findings reveal that models shift toward visual reliance under noise yet maintain high audio contributions even under severe degradation. Modality balance evolves during generation, temporal alignment holds under noise, and SNR is the dominant factor driving modality weighting. These findings expose a persistent audio bias, motivating ad-hoc modality-weighting mechanisms and Shapley-based attribution as a standard AVSR diagnostic.