Effiziente Audio-Visuelle Sprachseparation mit Diskreter Lippen-Semantik und Multi-Skala Global-Lokaler Aufmerksamkeit

papers.abstract

Audio-visuelle Sprachseparation (AVSS)-Methoden nutzen visuelle Hinweise, um Zielsprache zu extrahieren, und haben eine hohe Separationsqualität in lauten akustischen Umgebungen demonstriert. Diese Methoden beinhalten jedoch in der Regel eine große Anzahl von Parametern und erfordern hohe Rechenkosten, was in vielen Anwendungen, in denen die Sprachseparation lediglich als Vorverarbeitungsschritt für weitere Sprachverarbeitung dient, inakzeptabel ist. Um dieses Problem zu lösen, schlagen wir eine effiziente AVSS-Methode namens Dolphin vor. Für die Extraktion visueller Merkmale entwickeln wir DP-LipCoder, einen Dual-Path-Leichtgewicht-Video-Encoder, der Lippenbewegungen in diskrete, audio-ausgerichtete semantische Tokens umwandelt. Für die Audioseparation konstruieren wir einen Leichtgewicht-Encoder-Decoder-Separator, in dem jede Schicht einen Global-Local-Attention (GLA)-Block enthält, um mehrskalige Abhängigkeiten effizient zu erfassen. Experimente auf drei Benchmark-Datensätzen zeigten, dass Dolphin nicht nur das derzeitige State-of-the-Art (SOTA)-Modell in der Separationsqualität übertraf, sondern auch bemerkenswerte Verbesserungen in der Effizienz erzielte: über 50 % weniger Parameter, eine Reduzierung der MACs um mehr als das 2,4-fache und eine über 6-fach schnellere GPU-Inferenzgeschwindigkeit. Diese Ergebnisse deuten darauf hin, dass Dolphin eine praktische und einsatzfähige Lösung für hochleistungsfähige AVSS in realen Szenarien bietet. Unser Code und unsere Demo-Seite sind öffentlich unter http://cslikai.cn/Dolphin/ verfügbar.

English

Audio-visual speech separation (AVSS) methods leverage visual cues to extract target speech and have demonstrated strong separation quality in noisy acoustic environments. However, these methods usually involve a large number of parameters and require high computational cost, which is unacceptable in many applications where speech separation serves as only a preprocessing step for further speech processing. To address this issue, we propose an efficient AVSS method, named Dolphin. For visual feature extraction, we develop DP-LipCoder, a dual-path lightweight video encoder that transforms lip-motion into discrete audio-aligned semantic tokens. For audio separation, we construct a lightweight encoder-decoder separator, in which each layer incorporates a global-local attention (GLA) block to efficiently capture multi-scale dependencies. Experiments on three benchmark datasets showed that Dolphin not only surpassed the current state-of-the-art (SOTA) model in separation quality but also achieved remarkable improvements in efficiency: over 50% fewer parameters, more than 2.4x reduction in MACs, and over 6x faster GPU inference speed. These results indicate that Dolphin offers a practical and deployable solution for high-performance AVSS in real-world scenarios. Our code and demo page are publicly available at http://cslikai.cn/Dolphin/.

Effiziente Audio-Visuelle Sprachseparation mit Diskreter Lippen-Semantik und Multi-Skala Global-Lokaler Aufmerksamkeit

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

papers.abstract

Support