Эффективное разделение аудиовизуальной речи с использованием дискретной семантики губ и многоуровневого глобально-локального внимания
Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention
September 28, 2025
Авторы: Kai Li, Kejun Gao, Xiaolin Hu
cs.AI
Аннотация
Методы аудиовизуального разделения речи (AVSS) используют визуальные подсказки для извлечения целевой речи и демонстрируют высокое качество разделения в шумных акустических условиях. Однако эти методы обычно включают большое количество параметров и требуют значительных вычислительных затрат, что неприемлемо во многих приложениях, где разделение речи служит лишь этапом предварительной обработки для дальнейшего анализа речи. Для решения этой проблемы мы предлагаем эффективный метод AVSS под названием Dolphin. Для извлечения визуальных признаков мы разработали DP-LipCoder — двухканальный легковесный видеокодер, который преобразует движение губ в дискретные семантические токены, синхронизированные с аудио. Для разделения аудио мы создали легковесный кодер-декодер, в котором каждый слой включает блок глобально-локального внимания (GLA) для эффективного захвата зависимостей на разных масштабах. Эксперименты на трех эталонных наборах данных показали, что Dolphin не только превзошел текущую модель с наилучшими показателями (SOTA) по качеству разделения, но и достиг значительного улучшения эффективности: более чем на 50% меньше параметров, сокращение количества операций (MACs) более чем в 2,4 раза и ускорение вывода на GPU более чем в 6 раз. Эти результаты указывают на то, что Dolphin предлагает практичное и применимое решение для высокопроизводительного AVSS в реальных сценариях. Наш код и демонстрационная страница доступны по адресу http://cslikai.cn/Dolphin/.
English
Audio-visual speech separation (AVSS) methods leverage visual cues to extract
target speech and have demonstrated strong separation quality in noisy acoustic
environments. However, these methods usually involve a large number of
parameters and require high computational cost, which is unacceptable in many
applications where speech separation serves as only a preprocessing step for
further speech processing. To address this issue, we propose an efficient AVSS
method, named Dolphin. For visual feature extraction, we develop DP-LipCoder, a
dual-path lightweight video encoder that transforms lip-motion into discrete
audio-aligned semantic tokens. For audio separation, we construct a lightweight
encoder-decoder separator, in which each layer incorporates a global-local
attention (GLA) block to efficiently capture multi-scale dependencies.
Experiments on three benchmark datasets showed that Dolphin not only surpassed
the current state-of-the-art (SOTA) model in separation quality but also
achieved remarkable improvements in efficiency: over 50% fewer parameters, more
than 2.4x reduction in MACs, and over 6x faster GPU inference speed. These
results indicate that Dolphin offers a practical and deployable solution for
high-performance AVSS in real-world scenarios. Our code and demo page are
publicly available at http://cslikai.cn/Dolphin/.