Effiziente Audio-Visuelle Sprachseparation mit Diskreter Lippen-Semantik und Multi-Skala Global-Lokaler Aufmerksamkeit
Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention
September 28, 2025
papers.authors: Kai Li, Kejun Gao, Xiaolin Hu
cs.AI
papers.abstract
Audio-visuelle Sprachseparation (AVSS)-Methoden nutzen visuelle Hinweise, um Zielsprache zu extrahieren, und haben eine hohe Separationsqualität in lauten akustischen Umgebungen demonstriert. Diese Methoden beinhalten jedoch in der Regel eine große Anzahl von Parametern und erfordern hohe Rechenkosten, was in vielen Anwendungen, in denen die Sprachseparation lediglich als Vorverarbeitungsschritt für weitere Sprachverarbeitung dient, inakzeptabel ist. Um dieses Problem zu lösen, schlagen wir eine effiziente AVSS-Methode namens Dolphin vor. Für die Extraktion visueller Merkmale entwickeln wir DP-LipCoder, einen Dual-Path-Leichtgewicht-Video-Encoder, der Lippenbewegungen in diskrete, audio-ausgerichtete semantische Tokens umwandelt. Für die Audioseparation konstruieren wir einen Leichtgewicht-Encoder-Decoder-Separator, in dem jede Schicht einen Global-Local-Attention (GLA)-Block enthält, um mehrskalige Abhängigkeiten effizient zu erfassen. Experimente auf drei Benchmark-Datensätzen zeigten, dass Dolphin nicht nur das derzeitige State-of-the-Art (SOTA)-Modell in der Separationsqualität übertraf, sondern auch bemerkenswerte Verbesserungen in der Effizienz erzielte: über 50 % weniger Parameter, eine Reduzierung der MACs um mehr als das 2,4-fache und eine über 6-fach schnellere GPU-Inferenzgeschwindigkeit. Diese Ergebnisse deuten darauf hin, dass Dolphin eine praktische und einsatzfähige Lösung für hochleistungsfähige AVSS in realen Szenarien bietet. Unser Code und unsere Demo-Seite sind öffentlich unter http://cslikai.cn/Dolphin/ verfügbar.
English
Audio-visual speech separation (AVSS) methods leverage visual cues to extract
target speech and have demonstrated strong separation quality in noisy acoustic
environments. However, these methods usually involve a large number of
parameters and require high computational cost, which is unacceptable in many
applications where speech separation serves as only a preprocessing step for
further speech processing. To address this issue, we propose an efficient AVSS
method, named Dolphin. For visual feature extraction, we develop DP-LipCoder, a
dual-path lightweight video encoder that transforms lip-motion into discrete
audio-aligned semantic tokens. For audio separation, we construct a lightweight
encoder-decoder separator, in which each layer incorporates a global-local
attention (GLA) block to efficiently capture multi-scale dependencies.
Experiments on three benchmark datasets showed that Dolphin not only surpassed
the current state-of-the-art (SOTA) model in separation quality but also
achieved remarkable improvements in efficiency: over 50% fewer parameters, more
than 2.4x reduction in MACs, and over 6x faster GPU inference speed. These
results indicate that Dolphin offers a practical and deployable solution for
high-performance AVSS in real-world scenarios. Our code and demo page are
publicly available at http://cslikai.cn/Dolphin/.