FADI-AEC: Een op scores gebaseerd diffusiemodel met snelle werking, gestuurd door het ver-eindsignaal voor akoestische echo-onderdrukking
FADI-AEC: Fast Score Based Diffusion Model Guided by Far-end Signal for Acoustic Echo Cancellation
January 8, 2024
Auteurs: Yang Liu, Li Wan, Yun Li, Yiteng Huang, Ming Sun, James Luan, Yangyang Shi, Xin Lei
cs.AI
Samenvatting
Ondanks het potentieel van diffusiemodellen in spraakverbetering, is hun inzet in Acoustic Echo Cancellation (AEC) beperkt gebleven. In dit artikel introduceren we DI-AEC, een baanbrekende op diffusie gebaseerde stochastische regeneratiebenadering specifiek voor AEC. Daarnaast stellen we FADI-AEC voor, een snel score-gebaseerd diffusie-AEC-framework om de rekenkundige eisen te verminderen, wat het geschikt maakt voor edge-apparaten. Het onderscheidt zich door het scoremodel slechts één keer per frame uit te voeren, wat een aanzienlijke toename in verwerkingsefficiëntie oplevert. Bovendien introduceren we een nieuwe techniek voor ruisgeneratie waarbij verre-endsignalen worden gebruikt, waarbij zowel verre-end als near-end signalen worden geïntegreerd om de nauwkeurigheid van het scoremodel te verfijnen. We testen onze voorgestelde methode op de ICASSP2023 Microsoft deep echo cancellation challenge evaluatiedataset, waar onze methode enkele end-to-end methoden en andere op diffusie gebaseerde echo-annuleringsmethoden overtreft.
English
Despite the potential of diffusion models in speech enhancement, their
deployment in Acoustic Echo Cancellation (AEC) has been restricted. In this
paper, we propose DI-AEC, pioneering a diffusion-based stochastic regeneration
approach dedicated to AEC. Further, we propose FADI-AEC, fast score-based
diffusion AEC framework to save computational demands, making it favorable for
edge devices. It stands out by running the score model once per frame,
achieving a significant surge in processing efficiency. Apart from that, we
introduce a novel noise generation technique where far-end signals are
utilized, incorporating both far-end and near-end signals to refine the score
model's accuracy. We test our proposed method on the ICASSP2023 Microsoft deep
echo cancellation challenge evaluation dataset, where our method outperforms
some of the end-to-end methods and other diffusion based echo cancellation
methods.