FADI-AEC: Ein schnelles, auf Scores basierendes Diffusionsmodell, geleitet durch das Fernendsignal zur akustischen Echokompensation
FADI-AEC: Fast Score Based Diffusion Model Guided by Far-end Signal for Acoustic Echo Cancellation
January 8, 2024
Autoren: Yang Liu, Li Wan, Yun Li, Yiteng Huang, Ming Sun, James Luan, Yangyang Shi, Xin Lei
cs.AI
Zusammenfassung
Trotz des Potenzials von Diffusionsmodellen in der Sprachverbesserung war ihr Einsatz in der Akustischen Echokompensation (AEC) bisher eingeschränkt. In diesem Artikel schlagen wir DI-AEC vor, das einen neuartigen, auf Diffusion basierenden stochastischen Regenerationsansatz speziell für AEC einführt. Darüber hinaus präsentieren wir FADI-AEC, ein schnelles, score-basiertes Diffusions-AEC-Framework, das den Rechenaufwand reduziert und somit für Edge-Geräte geeignet ist. Es zeichnet sich dadurch aus, dass das Score-Modell nur einmal pro Frame ausgeführt wird, was zu einer erheblichen Steigerung der Verarbeitungseffizienz führt. Zusätzlich führen wir eine neuartige Rauschgenerierungstechnik ein, bei der Fernsignale genutzt werden, wobei sowohl Fern- als auch Nahsignale einbezogen werden, um die Genauigkeit des Score-Modells zu verbessern. Wir testen unsere vorgeschlagene Methode auf dem ICASSP2023 Microsoft Deep Echo Cancellation Challenge Evaluationsdatensatz, wo unsere Methode einige der End-to-End-Methoden und andere auf Diffusion basierende Echokompensationsmethoden übertrifft.
English
Despite the potential of diffusion models in speech enhancement, their
deployment in Acoustic Echo Cancellation (AEC) has been restricted. In this
paper, we propose DI-AEC, pioneering a diffusion-based stochastic regeneration
approach dedicated to AEC. Further, we propose FADI-AEC, fast score-based
diffusion AEC framework to save computational demands, making it favorable for
edge devices. It stands out by running the score model once per frame,
achieving a significant surge in processing efficiency. Apart from that, we
introduce a novel noise generation technique where far-end signals are
utilized, incorporating both far-end and near-end signals to refine the score
model's accuracy. We test our proposed method on the ICASSP2023 Microsoft deep
echo cancellation challenge evaluation dataset, where our method outperforms
some of the end-to-end methods and other diffusion based echo cancellation
methods.