効率的な音声-視覚音声分離:離散的な唇の意味表現とマルチスケールのグローバル-ローカルアテンションを活用して
Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention
September 28, 2025
著者: Kai Li, Kejun Gao, Xiaolin Hu
cs.AI
要旨
音声視覚分離(AVSS)手法は、視覚的手がかりを活用してターゲット音声を抽出し、騒音の多い音響環境において優れた分離品質を実証してきました。しかし、これらの手法は通常、多数のパラメータを必要とし、高い計算コストを伴うため、音声分離がさらなる音声処理の前処理ステップとしてのみ機能する多くのアプリケーションでは受け入れられません。この問題に対処するため、我々はDolphinという効率的なAVSS手法を提案します。視覚的特徴抽出のために、唇の動きを離散的な音声整合セマンティックトークンに変換するデュアルパス軽量ビデオエンコーダであるDP-LipCoderを開発しました。音声分離については、各層にマルチスケール依存性を効率的に捕捉するグローバル-ローカルアテンション(GLA)ブロックを組み込んだ軽量エンコーダ-デコーダセパレータを構築しました。3つのベンチマークデータセットでの実験により、Dolphinは分離品質において現在の最先端(SOTA)モデルを上回るだけでなく、効率性においても顕著な改善を達成しました:パラメータ数が50%以上削減、MACsが2.4倍以上削減、GPU推論速度が6倍以上高速化されました。これらの結果は、Dolphinが実世界のシナリオにおける高性能AVSSの実用的かつ展開可能なソリューションを提供することを示しています。我々のコードとデモページはhttp://cslikai.cn/Dolphin/で公開されています。
English
Audio-visual speech separation (AVSS) methods leverage visual cues to extract
target speech and have demonstrated strong separation quality in noisy acoustic
environments. However, these methods usually involve a large number of
parameters and require high computational cost, which is unacceptable in many
applications where speech separation serves as only a preprocessing step for
further speech processing. To address this issue, we propose an efficient AVSS
method, named Dolphin. For visual feature extraction, we develop DP-LipCoder, a
dual-path lightweight video encoder that transforms lip-motion into discrete
audio-aligned semantic tokens. For audio separation, we construct a lightweight
encoder-decoder separator, in which each layer incorporates a global-local
attention (GLA) block to efficiently capture multi-scale dependencies.
Experiments on three benchmark datasets showed that Dolphin not only surpassed
the current state-of-the-art (SOTA) model in separation quality but also
achieved remarkable improvements in efficiency: over 50% fewer parameters, more
than 2.4x reduction in MACs, and over 6x faster GPU inference speed. These
results indicate that Dolphin offers a practical and deployable solution for
high-performance AVSS in real-world scenarios. Our code and demo page are
publicly available at http://cslikai.cn/Dolphin/.