ChatPaper.aiChatPaper

Efficiënte Audio-Visuele Spraakscheiding met Discrete Lip Semantiek en Multi-Schaal Globale-Lokale Aandacht

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

September 28, 2025
Auteurs: Kai Li, Kejun Gao, Xiaolin Hu
cs.AI

Samenvatting

Audio-visuele spraakscheiding (AVSS) methoden maken gebruik van visuele aanwijzingen om doelsignalen te extraheren en hebben een sterke scheidingskwaliteit aangetoond in rumoerige akoestische omgevingen. Deze methoden omvatten echter meestal een groot aantal parameters en vereisen een hoge rekencapaciteit, wat onaanvaardbaar is in veel toepassingen waar spraakscheiding slechts een voorbewerkingsstap is voor verdere spraakverwerking. Om dit probleem aan te pakken, stellen we een efficiënte AVSS-methode voor, genaamd Dolphin. Voor het extraheren van visuele kenmerken ontwikkelen we DP-LipCoder, een dual-path lichtgewicht video-encoder die lipbewegingen omzet in discrete audio-uitgelijnde semantische tokens. Voor audioscheiding construeren we een lichtgewicht encoder-decoder scheider, waarin elke laag een global-local attention (GLA) blok bevat om efficiënt multi-schaal afhankelijkheden vast te leggen. Experimenten op drie benchmark datasets toonden aan dat Dolphin niet alleen het huidige state-of-the-art (SOTA) model in scheidingskwaliteit overtrof, maar ook opmerkelijke verbeteringen in efficiëntie bereikte: meer dan 50% minder parameters, een reductie van meer dan 2,4x in MACs, en een GPU-inferentiesnelheid die meer dan 6x sneller is. Deze resultaten geven aan dat Dolphin een praktische en inzetbare oplossing biedt voor hoogwaardige AVSS in real-world scenario's. Onze code en demopagina zijn publiekelijk beschikbaar op http://cslikai.cn/Dolphin/.
English
Audio-visual speech separation (AVSS) methods leverage visual cues to extract target speech and have demonstrated strong separation quality in noisy acoustic environments. However, these methods usually involve a large number of parameters and require high computational cost, which is unacceptable in many applications where speech separation serves as only a preprocessing step for further speech processing. To address this issue, we propose an efficient AVSS method, named Dolphin. For visual feature extraction, we develop DP-LipCoder, a dual-path lightweight video encoder that transforms lip-motion into discrete audio-aligned semantic tokens. For audio separation, we construct a lightweight encoder-decoder separator, in which each layer incorporates a global-local attention (GLA) block to efficiently capture multi-scale dependencies. Experiments on three benchmark datasets showed that Dolphin not only surpassed the current state-of-the-art (SOTA) model in separation quality but also achieved remarkable improvements in efficiency: over 50% fewer parameters, more than 2.4x reduction in MACs, and over 6x faster GPU inference speed. These results indicate that Dolphin offers a practical and deployable solution for high-performance AVSS in real-world scenarios. Our code and demo page are publicly available at http://cslikai.cn/Dolphin/.
PDF132October 1, 2025