FADI-AEC: Modello di Diffusione Basato su Punteggio Veloce Guidato dal Segnale Lontano per la Cancellazione dell'Eco Acustico
FADI-AEC: Fast Score Based Diffusion Model Guided by Far-end Signal for Acoustic Echo Cancellation
January 8, 2024
Autori: Yang Liu, Li Wan, Yun Li, Yiteng Huang, Ming Sun, James Luan, Yangyang Shi, Xin Lei
cs.AI
Abstract
Nonostante il potenziale dei modelli di diffusione nel miglioramento del segnale vocale, il loro utilizzo nella cancellazione dell'eco acustica (AEC) è stato limitato. In questo articolo, proponiamo DI-AEC, introducendo un approccio innovativo basato sulla rigenerazione stocastica tramite diffusione specificamente dedicato all'AEC. Inoltre, presentiamo FADI-AEC, un framework rapido per la cancellazione dell'eco basato su modelli di diffusione e punteggi, progettato per ridurre le esigenze computazionali e renderlo favorevole per dispositivi edge. Questo metodo si distingue per l'esecuzione del modello di punteggio una volta per frame, ottenendo un significativo aumento dell'efficienza di elaborazione. Oltre a ciò, introduciamo una nuova tecnica di generazione del rumore in cui vengono utilizzati i segnali lato remoto, incorporando sia i segnali lato remoto che quelli lato vicino per affinare l'accuratezza del modello di punteggio. Testiamo il nostro metodo proposto sul dataset di valutazione della sfida di cancellazione profonda dell'eco Microsoft ICASSP2023, dove il nostro metodo supera alcuni dei metodi end-to-end e altri metodi di cancellazione dell'eco basati sulla diffusione.
English
Despite the potential of diffusion models in speech enhancement, their
deployment in Acoustic Echo Cancellation (AEC) has been restricted. In this
paper, we propose DI-AEC, pioneering a diffusion-based stochastic regeneration
approach dedicated to AEC. Further, we propose FADI-AEC, fast score-based
diffusion AEC framework to save computational demands, making it favorable for
edge devices. It stands out by running the score model once per frame,
achieving a significant surge in processing efficiency. Apart from that, we
introduce a novel noise generation technique where far-end signals are
utilized, incorporating both far-end and near-end signals to refine the score
model's accuracy. We test our proposed method on the ICASSP2023 Microsoft deep
echo cancellation challenge evaluation dataset, where our method outperforms
some of the end-to-end methods and other diffusion based echo cancellation
methods.