Separação Eficiente de Fala Áudio-Visual com Semântica Discreta de Lábios e Atenção Global-Local Multi-Escala
Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention
September 28, 2025
Autores: Kai Li, Kejun Gao, Xiaolin Hu
cs.AI
Resumo
Métodos de separação de fala audiovisual (AVSS) utilizam pistas visuais para extrair a fala alvo e demonstraram alta qualidade de separação em ambientes acústicos ruidosos. No entanto, esses métodos geralmente envolvem um grande número de parâmetros e exigem alto custo computacional, o que é inaceitável em muitas aplicações onde a separação de fala serve apenas como uma etapa de pré-processamento para processamento adicional de fala. Para resolver esse problema, propomos um método AVSS eficiente, denominado Dolphin. Para a extração de características visuais, desenvolvemos o DP-LipCoder, um codificador de vídeo leve de caminho duplo que transforma o movimento labial em tokens semânticos discretos alinhados ao áudio. Para a separação de áudio, construímos um separador leve codificador-decodificador, no qual cada camada incorpora um bloco de atenção global-local (GLA) para capturar eficientemente dependências em múltiplas escalas. Experimentos em três conjuntos de dados de referência mostraram que o Dolphin não apenas superou o modelo state-of-the-art (SOTA) atual em qualidade de separação, mas também alcançou melhorias notáveis em eficiência: mais de 50% menos parâmetros, redução de mais de 2,4x em MACs e velocidade de inferência em GPU mais de 6x mais rápida. Esses resultados indicam que o Dolphin oferece uma solução prática e implantável para AVSS de alto desempenho em cenários do mundo real. Nosso código e página de demonstração estão disponíveis publicamente em http://cslikai.cn/Dolphin/.
English
Audio-visual speech separation (AVSS) methods leverage visual cues to extract
target speech and have demonstrated strong separation quality in noisy acoustic
environments. However, these methods usually involve a large number of
parameters and require high computational cost, which is unacceptable in many
applications where speech separation serves as only a preprocessing step for
further speech processing. To address this issue, we propose an efficient AVSS
method, named Dolphin. For visual feature extraction, we develop DP-LipCoder, a
dual-path lightweight video encoder that transforms lip-motion into discrete
audio-aligned semantic tokens. For audio separation, we construct a lightweight
encoder-decoder separator, in which each layer incorporates a global-local
attention (GLA) block to efficiently capture multi-scale dependencies.
Experiments on three benchmark datasets showed that Dolphin not only surpassed
the current state-of-the-art (SOTA) model in separation quality but also
achieved remarkable improvements in efficiency: over 50% fewer parameters, more
than 2.4x reduction in MACs, and over 6x faster GPU inference speed. These
results indicate that Dolphin offers a practical and deployable solution for
high-performance AVSS in real-world scenarios. Our code and demo page are
publicly available at http://cslikai.cn/Dolphin/.