FADI-AEC : Modèle de diffusion rapide basé sur un score guidé par un signal distant pour l'annulation d'écho acoustique
FADI-AEC: Fast Score Based Diffusion Model Guided by Far-end Signal for Acoustic Echo Cancellation
January 8, 2024
Auteurs: Yang Liu, Li Wan, Yun Li, Yiteng Huang, Ming Sun, James Luan, Yangyang Shi, Xin Lei
cs.AI
Résumé
Malgré le potentiel des modèles de diffusion dans l'amélioration de la parole, leur déploiement dans l'annulation d'écho acoustique (AEC) a été limité. Dans cet article, nous proposons DI-AEC, une approche pionnière de régénération stochastique basée sur la diffusion dédiée à l'AEC. De plus, nous proposons FADI-AEC, un cadre rapide d'annulation d'écho basé sur la diffusion et les scores, permettant de réduire les exigences computationnelles, ce qui le rend favorable pour les appareils périphériques. Il se distingue en exécutant le modèle de score une seule fois par trame, obtenant ainsi une augmentation significative de l'efficacité du traitement. Par ailleurs, nous introduisons une nouvelle technique de génération de bruit où les signaux distants sont utilisés, incorporant à la fois les signaux distants et proches pour affiner la précision du modèle de score. Nous testons notre méthode proposée sur le jeu de données d'évaluation du défi d'annulation d'écho profond Microsoft ICASSP2023, où notre méthode surpasse certaines des méthodes end-to-end et d'autres méthodes d'annulation d'écho basées sur la diffusion.
English
Despite the potential of diffusion models in speech enhancement, their
deployment in Acoustic Echo Cancellation (AEC) has been restricted. In this
paper, we propose DI-AEC, pioneering a diffusion-based stochastic regeneration
approach dedicated to AEC. Further, we propose FADI-AEC, fast score-based
diffusion AEC framework to save computational demands, making it favorable for
edge devices. It stands out by running the score model once per frame,
achieving a significant surge in processing efficiency. Apart from that, we
introduce a novel noise generation technique where far-end signals are
utilized, incorporating both far-end and near-end signals to refine the score
model's accuracy. We test our proposed method on the ICASSP2023 Microsoft deep
echo cancellation challenge evaluation dataset, where our method outperforms
some of the end-to-end methods and other diffusion based echo cancellation
methods.