Separazione Efficace del Parlato Audio-Visivo con Semantica Discreta delle Labbra e Attenzione Multi-Scala Globale-Locale
Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention
September 28, 2025
Autori: Kai Li, Kejun Gao, Xiaolin Hu
cs.AI
Abstract
I metodi di separazione audio-visiva del parlato (AVSS) sfruttano i segnali visivi per estrarre il parlato target e hanno dimostrato una qualità di separazione elevata in ambienti acustici rumorosi. Tuttavia, questi metodi di solito coinvolgono un numero elevato di parametri e richiedono un costo computazionale significativo, il che è inaccettabile in molte applicazioni in cui la separazione del parlato funge solo da fase di pre-elaborazione per ulteriori elaborazioni del parlato. Per affrontare questo problema, proponiamo un metodo AVSS efficiente, denominato Dolphin. Per l'estrazione delle caratteristiche visive, abbiamo sviluppato DP-LipCoder, un codificatore video leggero a doppio percorso che trasforma il movimento delle labbra in token semantici discreti allineati all'audio. Per la separazione audio, abbiamo costruito un separatore leggero encoder-decoder, in cui ogni livello incorpora un blocco di attenzione globale-locale (GLA) per catturare in modo efficiente le dipendenze multi-scala. Gli esperimenti su tre dataset di riferimento hanno dimostrato che Dolphin non solo ha superato il modello state-of-the-art (SOTA) attuale in termini di qualità di separazione, ma ha anche ottenuto miglioramenti significativi in termini di efficienza: oltre il 50% in meno di parametri, una riduzione di oltre 2,4x nelle operazioni MAC e una velocità di inferenza su GPU più di 6 volte più veloce. Questi risultati indicano che Dolphin offre una soluzione pratica e implementabile per l'AVSS ad alte prestazioni in scenari reali. Il nostro codice e la pagina demo sono disponibili pubblicamente all'indirizzo http://cslikai.cn/Dolphin/.
English
Audio-visual speech separation (AVSS) methods leverage visual cues to extract
target speech and have demonstrated strong separation quality in noisy acoustic
environments. However, these methods usually involve a large number of
parameters and require high computational cost, which is unacceptable in many
applications where speech separation serves as only a preprocessing step for
further speech processing. To address this issue, we propose an efficient AVSS
method, named Dolphin. For visual feature extraction, we develop DP-LipCoder, a
dual-path lightweight video encoder that transforms lip-motion into discrete
audio-aligned semantic tokens. For audio separation, we construct a lightweight
encoder-decoder separator, in which each layer incorporates a global-local
attention (GLA) block to efficiently capture multi-scale dependencies.
Experiments on three benchmark datasets showed that Dolphin not only surpassed
the current state-of-the-art (SOTA) model in separation quality but also
achieved remarkable improvements in efficiency: over 50% fewer parameters, more
than 2.4x reduction in MACs, and over 6x faster GPU inference speed. These
results indicate that Dolphin offers a practical and deployable solution for
high-performance AVSS in real-world scenarios. Our code and demo page are
publicly available at http://cslikai.cn/Dolphin/.