FADI-AEC: Быстрая диффузионная модель на основе оценки, управляемая сигналом с дальней стороны для подавления акустического эха
FADI-AEC: Fast Score Based Diffusion Model Guided by Far-end Signal for Acoustic Echo Cancellation
January 8, 2024
Авторы: Yang Liu, Li Wan, Yun Li, Yiteng Huang, Ming Sun, James Luan, Yangyang Shi, Xin Lei
cs.AI
Аннотация
Несмотря на потенциал диффузионных моделей в улучшении качества речи, их применение в задаче акустического подавления эха (AEC) оставалось ограниченным. В данной статье мы представляем DI-AEC, впервые предлагая подход, основанный на стохастической регенерации с использованием диффузии, специально разработанный для AEC. Кроме того, мы предлагаем FADI-AEC — быстрый фреймворк для подавления эха на основе диффузионных моделей, который снижает вычислительные затраты, что делает его предпочтительным для устройств с ограниченными ресурсами. Этот метод выделяется тем, что модель оценки запускается только один раз за кадр, что значительно повышает эффективность обработки. Помимо этого, мы вводим новую методику генерации шума, в которой используются сигналы удаленного конца, объединяя их с сигналами ближнего конца для повышения точности модели оценки. Мы тестируем наш метод на оценочном наборе данных конкурса Microsoft по глубокому подавлению эха ICASSP2023, где наш подход превосходит некоторые end-to-end методы и другие методы подавления эха на основе диффузии.
English
Despite the potential of diffusion models in speech enhancement, their
deployment in Acoustic Echo Cancellation (AEC) has been restricted. In this
paper, we propose DI-AEC, pioneering a diffusion-based stochastic regeneration
approach dedicated to AEC. Further, we propose FADI-AEC, fast score-based
diffusion AEC framework to save computational demands, making it favorable for
edge devices. It stands out by running the score model once per frame,
achieving a significant surge in processing efficiency. Apart from that, we
introduce a novel noise generation technique where far-end signals are
utilized, incorporating both far-end and near-end signals to refine the score
model's accuracy. We test our proposed method on the ICASSP2023 Microsoft deep
echo cancellation challenge evaluation dataset, where our method outperforms
some of the end-to-end methods and other diffusion based echo cancellation
methods.