ChatPaper.aiChatPaper

Эффективное разделение аудиовизуальной речи с использованием дискретной семантики губ и многоуровневого глобально-локального внимания

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

September 28, 2025
Авторы: Kai Li, Kejun Gao, Xiaolin Hu
cs.AI

Аннотация

Методы аудиовизуального разделения речи (AVSS) используют визуальные подсказки для извлечения целевой речи и демонстрируют высокое качество разделения в шумных акустических условиях. Однако эти методы обычно включают большое количество параметров и требуют значительных вычислительных затрат, что неприемлемо во многих приложениях, где разделение речи служит лишь этапом предварительной обработки для дальнейшего анализа речи. Для решения этой проблемы мы предлагаем эффективный метод AVSS под названием Dolphin. Для извлечения визуальных признаков мы разработали DP-LipCoder — двухканальный легковесный видеокодер, который преобразует движение губ в дискретные семантические токены, синхронизированные с аудио. Для разделения аудио мы создали легковесный кодер-декодер, в котором каждый слой включает блок глобально-локального внимания (GLA) для эффективного захвата зависимостей на разных масштабах. Эксперименты на трех эталонных наборах данных показали, что Dolphin не только превзошел текущую модель с наилучшими показателями (SOTA) по качеству разделения, но и достиг значительного улучшения эффективности: более чем на 50% меньше параметров, сокращение количества операций (MACs) более чем в 2,4 раза и ускорение вывода на GPU более чем в 6 раз. Эти результаты указывают на то, что Dolphin предлагает практичное и применимое решение для высокопроизводительного AVSS в реальных сценариях. Наш код и демонстрационная страница доступны по адресу http://cslikai.cn/Dolphin/.
English
Audio-visual speech separation (AVSS) methods leverage visual cues to extract target speech and have demonstrated strong separation quality in noisy acoustic environments. However, these methods usually involve a large number of parameters and require high computational cost, which is unacceptable in many applications where speech separation serves as only a preprocessing step for further speech processing. To address this issue, we propose an efficient AVSS method, named Dolphin. For visual feature extraction, we develop DP-LipCoder, a dual-path lightweight video encoder that transforms lip-motion into discrete audio-aligned semantic tokens. For audio separation, we construct a lightweight encoder-decoder separator, in which each layer incorporates a global-local attention (GLA) block to efficiently capture multi-scale dependencies. Experiments on three benchmark datasets showed that Dolphin not only surpassed the current state-of-the-art (SOTA) model in separation quality but also achieved remarkable improvements in efficiency: over 50% fewer parameters, more than 2.4x reduction in MACs, and over 6x faster GPU inference speed. These results indicate that Dolphin offers a practical and deployable solution for high-performance AVSS in real-world scenarios. Our code and demo page are publicly available at http://cslikai.cn/Dolphin/.
PDF101October 1, 2025