ChatPaper.aiChatPaper

Separación Eficiente de Habla Audio-Visual con Semántica Discreta de Labios y Atención Global-Local Multi-Escala

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

September 28, 2025
Autores: Kai Li, Kejun Gao, Xiaolin Hu
cs.AI

Resumen

Los métodos de separación de habla audiovisual (AVSS, por sus siglas en inglés) aprovechan las señales visuales para extraer el habla objetivo y han demostrado una alta calidad de separación en entornos acústicos ruidosos. Sin embargo, estos métodos suelen involucrar un gran número de parámetros y requieren un alto costo computacional, lo que resulta inaceptable en muchas aplicaciones donde la separación de habla sirve únicamente como un paso de preprocesamiento para un procesamiento posterior del habla. Para abordar este problema, proponemos un método AVSS eficiente, denominado Dolphin. Para la extracción de características visuales, desarrollamos DP-LipCoder, un codificador de video ligero de doble ruta que transforma el movimiento de los labios en tokens semánticos discretos alineados con el audio. Para la separación de audio, construimos un separador ligero codificador-decodificador, en el que cada capa incorpora un bloque de atención global-local (GLA, por sus siglas en inglés) para capturar eficientemente dependencias a múltiples escalas. Los experimentos en tres conjuntos de datos de referencia mostraron que Dolphin no solo superó al modelo actual más avanzado (SOTA, por sus siglas en inglés) en calidad de separación, sino que también logró mejoras notables en eficiencia: más del 50% menos de parámetros, una reducción de más de 2.4x en MACs y una velocidad de inferencia en GPU más de 6 veces más rápida. Estos resultados indican que Dolphin ofrece una solución práctica y desplegable para AVSS de alto rendimiento en escenarios del mundo real. Nuestro código y página de demostración están disponibles públicamente en http://cslikai.cn/Dolphin/.
English
Audio-visual speech separation (AVSS) methods leverage visual cues to extract target speech and have demonstrated strong separation quality in noisy acoustic environments. However, these methods usually involve a large number of parameters and require high computational cost, which is unacceptable in many applications where speech separation serves as only a preprocessing step for further speech processing. To address this issue, we propose an efficient AVSS method, named Dolphin. For visual feature extraction, we develop DP-LipCoder, a dual-path lightweight video encoder that transforms lip-motion into discrete audio-aligned semantic tokens. For audio separation, we construct a lightweight encoder-decoder separator, in which each layer incorporates a global-local attention (GLA) block to efficiently capture multi-scale dependencies. Experiments on three benchmark datasets showed that Dolphin not only surpassed the current state-of-the-art (SOTA) model in separation quality but also achieved remarkable improvements in efficiency: over 50% fewer parameters, more than 2.4x reduction in MACs, and over 6x faster GPU inference speed. These results indicate that Dolphin offers a practical and deployable solution for high-performance AVSS in real-world scenarios. Our code and demo page are publicly available at http://cslikai.cn/Dolphin/.
PDF101October 1, 2025