Séparation efficace de la parole audio-visuelle avec sémantique discrète des lèvres et attention globale-locale multi-échelle
Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention
September 28, 2025
papers.authors: Kai Li, Kejun Gao, Xiaolin Hu
cs.AI
papers.abstract
Les méthodes de séparation audio-visuelle de la parole (AVSS) exploitent les indices visuels pour extraire la parole cible et ont démontré une qualité de séparation élevée dans des environnements acoustiques bruyants. Cependant, ces méthodes impliquent généralement un grand nombre de paramètres et nécessitent un coût computationnel élevé, ce qui est inacceptable dans de nombreuses applications où la séparation de la parole ne sert qu'à une étape de prétraitement pour un traitement ultérieur de la parole. Pour résoudre ce problème, nous proposons une méthode AVSS efficace, nommée Dolphin. Pour l'extraction des caractéristiques visuelles, nous développons DP-LipCoder, un encodeur vidéo léger à double chemin qui transforme les mouvements labiaux en tokens sémantiques discrets alignés sur l'audio. Pour la séparation audio, nous construisons un séparateur léger encodeur-décodeur, dans lequel chaque couche intègre un bloc d'attention globale-locale (GLA) pour capturer efficacement les dépendances multi-échelles. Les expériences sur trois ensembles de données de référence ont montré que Dolphin non seulement surpasse le modèle actuel de pointe (SOTA) en termes de qualité de séparation, mais réalise également des améliorations remarquables en efficacité : plus de 50 % de paramètres en moins, une réduction de plus de 2,4x des MACs, et une vitesse d'inférence sur GPU plus de 6x plus rapide. Ces résultats indiquent que Dolphin offre une solution pratique et déployable pour une AVSS haute performance dans des scénarios réels. Notre code et notre page de démonstration sont disponibles publiquement à l'adresse http://cslikai.cn/Dolphin/.
English
Audio-visual speech separation (AVSS) methods leverage visual cues to extract
target speech and have demonstrated strong separation quality in noisy acoustic
environments. However, these methods usually involve a large number of
parameters and require high computational cost, which is unacceptable in many
applications where speech separation serves as only a preprocessing step for
further speech processing. To address this issue, we propose an efficient AVSS
method, named Dolphin. For visual feature extraction, we develop DP-LipCoder, a
dual-path lightweight video encoder that transforms lip-motion into discrete
audio-aligned semantic tokens. For audio separation, we construct a lightweight
encoder-decoder separator, in which each layer incorporates a global-local
attention (GLA) block to efficiently capture multi-scale dependencies.
Experiments on three benchmark datasets showed that Dolphin not only surpassed
the current state-of-the-art (SOTA) model in separation quality but also
achieved remarkable improvements in efficiency: over 50% fewer parameters, more
than 2.4x reduction in MACs, and over 6x faster GPU inference speed. These
results indicate that Dolphin offers a practical and deployable solution for
high-performance AVSS in real-world scenarios. Our code and demo page are
publicly available at http://cslikai.cn/Dolphin/.