Dr. SHAP-AV: Decodificação das Contribuições Modais Relativas via Atribuição de Shapley no Reconhecimento de Fala Áudio-Visual

Resumo

A Reconhecimento de Fala Áudio-Visual (AVSR) aproveita informações acústicas e visuais para uma reconhecimento robusto sob ruído. No entanto, a forma como os modelos equilibram essas modalidades permanece pouco clara. Apresentamos o Dr. SHAP-AV, uma estrutura que utiliza valores de Shapley para analisar as contribuições das modalidades no AVSR. Por meio de experimentos com seis modelos em dois benchmarks e diversos níveis de SNR, introduzimos três análises: SHAP Global para o equilíbrio geral das modalidades, SHAP Generativo para a dinâmica das contribuições durante a decodificação e SHAP de Alinhamento Temporal para a correspondência entrada-saída. Nossos resultados revelam que os modelos tendem a uma maior dependência visual sob ruído, mas mantêm altas contribuições de áudio mesmo sob degradação severa. O equilíbrio das modalidades evolui durante a geração, o alinhamento temporal mantém-se sob ruído, e o SNR é o fator dominante que direciona a ponderação das modalidades. Essas descobertas expõem um viés persistente em relação ao áudio, motivando mecanismos de ponderação de modalidade ad-hoc e a atribuição baseada em Shapley como um diagnóstico padrão para AVSR.

English

Audio-Visual Speech Recognition (AVSR) leverages both acoustic and visual information for robust recognition under noise. However, how models balance these modalities remains unclear. We present Dr. SHAP-AV, a framework using Shapley values to analyze modality contributions in AVSR. Through experiments on six models across two benchmarks and varying SNR levels, we introduce three analyses: Global SHAP for overall modality balance, Generative SHAP for contribution dynamics during decoding, and Temporal Alignment SHAP for input-output correspondence. Our findings reveal that models shift toward visual reliance under noise yet maintain high audio contributions even under severe degradation. Modality balance evolves during generation, temporal alignment holds under noise, and SNR is the dominant factor driving modality weighting. These findings expose a persistent audio bias, motivating ad-hoc modality-weighting mechanisms and Shapley-based attribution as a standard AVSR diagnostic.

Dr. SHAP-AV: Decodificação das Contribuições Modais Relativas via Atribuição de Shapley no Reconhecimento de Fala Áudio-Visual

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Resumo

Support