ChatPaper.aiChatPaper

HiFi-SR: Uma Rede Adversarial Generativa Unificada Transformer-Convolucional para Super-Resolução de Fala de Alta Fidelidade

HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution

January 17, 2025
Autores: Shengkui Zhao, Kun Zhou, Zexu Pan, Yukun Ma, Chong Zhang, Bin Ma
cs.AI

Resumo

A aplicação de redes generativas adversárias (GANs) avançou recentemente na super-resolução de fala (SR) com base em representações intermediárias como mel-espectrogramas. No entanto, os métodos de SR existentes, que geralmente dependem de redes treinadas de forma independente e concatenadas, podem resultar em representações inconsistentes e baixa qualidade de fala, especialmente em cenários fora do domínio. Neste trabalho, propomos o HiFi-SR, uma rede unificada que aproveita o treinamento adversarial de ponta a ponta para alcançar super-resolução de fala de alta fidelidade. Nosso modelo apresenta um gerador unificado transformador-convolucional projetado para lidar perfeitamente com a previsão de representações latentes e sua conversão em formas de onda de domínio temporal. A rede transformadora atua como um codificador poderoso, convertendo mel-espectrogramas de baixa resolução em representações de espaço latente, enquanto a rede convolucional amplia essas representações em formas de onda de alta resolução. Para aprimorar a fidelidade de alta frequência, incorporamos um discriminador multi-banda, multi-escala tempo-frequência, juntamente com uma perda de reconstrução mel multi-escala no processo de treinamento adversarial. O HiFi-SR é versátil, capaz de aumentar a taxa de amostragem de qualquer sinal de fala de entrada entre 4 kHz e 32 kHz para 48 kHz. Resultados experimentais demonstram que o HiFi-SR supera significativamente os métodos de SR de fala existentes em métricas objetivas e testes de preferência ABX, tanto em cenários dentro quanto fora do domínio (https://github.com/modelscope/ClearerVoice-Studio).
English
The application of generative adversarial networks (GANs) has recently advanced speech super-resolution (SR) based on intermediate representations like mel-spectrograms. However, existing SR methods that typically rely on independently trained and concatenated networks may lead to inconsistent representations and poor speech quality, especially in out-of-domain scenarios. In this work, we propose HiFi-SR, a unified network that leverages end-to-end adversarial training to achieve high-fidelity speech super-resolution. Our model features a unified transformer-convolutional generator designed to seamlessly handle both the prediction of latent representations and their conversion into time-domain waveforms. The transformer network serves as a powerful encoder, converting low-resolution mel-spectrograms into latent space representations, while the convolutional network upscales these representations into high-resolution waveforms. To enhance high-frequency fidelity, we incorporate a multi-band, multi-scale time-frequency discriminator, along with a multi-scale mel-reconstruction loss in the adversarial training process. HiFi-SR is versatile, capable of upscaling any input speech signal between 4 kHz and 32 kHz to a 48 kHz sampling rate. Experimental results demonstrate that HiFi-SR significantly outperforms existing speech SR methods across both objective metrics and ABX preference tests, for both in-domain and out-of-domain scenarios (https://github.com/modelscope/ClearerVoice-Studio).

Summary

AI-Generated Summary

PDF93January 20, 2025