効率的な音声-視覚音声分離：離散的な唇の意味表現とマルチスケールのグローバル-ローカルアテンションを活用して

要旨

音声視覚分離（AVSS）手法は、視覚的手がかりを活用してターゲット音声を抽出し、騒音の多い音響環境において優れた分離品質を実証してきました。しかし、これらの手法は通常、多数のパラメータを必要とし、高い計算コストを伴うため、音声分離がさらなる音声処理の前処理ステップとしてのみ機能する多くのアプリケーションでは受け入れられません。この問題に対処するため、我々はDolphinという効率的なAVSS手法を提案します。視覚的特徴抽出のために、唇の動きを離散的な音声整合セマンティックトークンに変換するデュアルパス軽量ビデオエンコーダであるDP-LipCoderを開発しました。音声分離については、各層にマルチスケール依存性を効率的に捕捉するグローバル-ローカルアテンション（GLA）ブロックを組み込んだ軽量エンコーダ-デコーダセパレータを構築しました。3つのベンチマークデータセットでの実験により、Dolphinは分離品質において現在の最先端（SOTA）モデルを上回るだけでなく、効率性においても顕著な改善を達成しました：パラメータ数が50%以上削減、MACsが2.4倍以上削減、GPU推論速度が6倍以上高速化されました。これらの結果は、Dolphinが実世界のシナリオにおける高性能AVSSの実用的かつ展開可能なソリューションを提供することを示しています。我々のコードとデモページはhttp://cslikai.cn/Dolphin/で公開されています。

English

Audio-visual speech separation (AVSS) methods leverage visual cues to extract target speech and have demonstrated strong separation quality in noisy acoustic environments. However, these methods usually involve a large number of parameters and require high computational cost, which is unacceptable in many applications where speech separation serves as only a preprocessing step for further speech processing. To address this issue, we propose an efficient AVSS method, named Dolphin. For visual feature extraction, we develop DP-LipCoder, a dual-path lightweight video encoder that transforms lip-motion into discrete audio-aligned semantic tokens. For audio separation, we construct a lightweight encoder-decoder separator, in which each layer incorporates a global-local attention (GLA) block to efficiently capture multi-scale dependencies. Experiments on three benchmark datasets showed that Dolphin not only surpassed the current state-of-the-art (SOTA) model in separation quality but also achieved remarkable improvements in efficiency: over 50% fewer parameters, more than 2.4x reduction in MACs, and over 6x faster GPU inference speed. These results indicate that Dolphin offers a practical and deployable solution for high-performance AVSS in real-world scenarios. Our code and demo page are publicly available at http://cslikai.cn/Dolphin/.