ChatPaper.aiChatPaper

Séparation efficace de la parole audio-visuelle avec sémantique discrète des lèvres et attention globale-locale multi-échelle

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

September 28, 2025
papers.authors: Kai Li, Kejun Gao, Xiaolin Hu
cs.AI

papers.abstract

Les méthodes de séparation audio-visuelle de la parole (AVSS) exploitent les indices visuels pour extraire la parole cible et ont démontré une qualité de séparation élevée dans des environnements acoustiques bruyants. Cependant, ces méthodes impliquent généralement un grand nombre de paramètres et nécessitent un coût computationnel élevé, ce qui est inacceptable dans de nombreuses applications où la séparation de la parole ne sert qu'à une étape de prétraitement pour un traitement ultérieur de la parole. Pour résoudre ce problème, nous proposons une méthode AVSS efficace, nommée Dolphin. Pour l'extraction des caractéristiques visuelles, nous développons DP-LipCoder, un encodeur vidéo léger à double chemin qui transforme les mouvements labiaux en tokens sémantiques discrets alignés sur l'audio. Pour la séparation audio, nous construisons un séparateur léger encodeur-décodeur, dans lequel chaque couche intègre un bloc d'attention globale-locale (GLA) pour capturer efficacement les dépendances multi-échelles. Les expériences sur trois ensembles de données de référence ont montré que Dolphin non seulement surpasse le modèle actuel de pointe (SOTA) en termes de qualité de séparation, mais réalise également des améliorations remarquables en efficacité : plus de 50 % de paramètres en moins, une réduction de plus de 2,4x des MACs, et une vitesse d'inférence sur GPU plus de 6x plus rapide. Ces résultats indiquent que Dolphin offre une solution pratique et déployable pour une AVSS haute performance dans des scénarios réels. Notre code et notre page de démonstration sont disponibles publiquement à l'adresse http://cslikai.cn/Dolphin/.
English
Audio-visual speech separation (AVSS) methods leverage visual cues to extract target speech and have demonstrated strong separation quality in noisy acoustic environments. However, these methods usually involve a large number of parameters and require high computational cost, which is unacceptable in many applications where speech separation serves as only a preprocessing step for further speech processing. To address this issue, we propose an efficient AVSS method, named Dolphin. For visual feature extraction, we develop DP-LipCoder, a dual-path lightweight video encoder that transforms lip-motion into discrete audio-aligned semantic tokens. For audio separation, we construct a lightweight encoder-decoder separator, in which each layer incorporates a global-local attention (GLA) block to efficiently capture multi-scale dependencies. Experiments on three benchmark datasets showed that Dolphin not only surpassed the current state-of-the-art (SOTA) model in separation quality but also achieved remarkable improvements in efficiency: over 50% fewer parameters, more than 2.4x reduction in MACs, and over 6x faster GPU inference speed. These results indicate that Dolphin offers a practical and deployable solution for high-performance AVSS in real-world scenarios. Our code and demo page are publicly available at http://cslikai.cn/Dolphin/.
PDF81October 1, 2025