HiFi-SR: Una Red Adversaria Generativa Unificada Transformer-Convolucional para Super-Resolución de Voz de Alta Fidelidad
HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution
January 17, 2025
Autores: Shengkui Zhao, Kun Zhou, Zexu Pan, Yukun Ma, Chong Zhang, Bin Ma
cs.AI
Resumen
La aplicación de redes generativas adversarias (GANs) ha avanzado recientemente en la superresolución del habla basada en representaciones intermedias como los mel-espectrogramas. Sin embargo, los métodos de superresolución existentes que suelen depender de redes entrenadas de forma independiente y concatenadas pueden llevar a representaciones inconsistentes y a una baja calidad del habla, especialmente en escenarios fuera del dominio. En este trabajo, proponemos HiFi-SR, una red unificada que aprovecha el entrenamiento adversarial de extremo a extremo para lograr una superresolución del habla de alta fidelidad. Nuestro modelo cuenta con un generador unificado transformer-convolucional diseñado para manejar de manera fluida tanto la predicción de representaciones latentes como su conversión en formas de onda de dominio temporal. La red transformer actúa como un potente codificador, convirtiendo mel-espectrogramas de baja resolución en representaciones en el espacio latente, mientras que la red convolucional amplía estas representaciones en formas de onda de alta resolución. Para mejorar la fidelidad de alta frecuencia, incorporamos un discriminador multi-banda y multi-escala de tiempo-frecuencia, junto con una pérdida de reconstrucción mel multi-escala en el proceso de entrenamiento adversarial. HiFi-SR es versátil, capaz de aumentar la tasa de muestreo de cualquier señal de habla de entrada entre 4 kHz y 32 kHz a 48 kHz. Los resultados experimentales demuestran que HiFi-SR supera significativamente a los métodos existentes de superresolución del habla en métricas objetivas y pruebas de preferencia ABX, tanto en escenarios dentro como fuera del dominio (https://github.com/modelscope/ClearerVoice-Studio).
English
The application of generative adversarial networks (GANs) has recently
advanced speech super-resolution (SR) based on intermediate representations
like mel-spectrograms. However, existing SR methods that typically rely on
independently trained and concatenated networks may lead to inconsistent
representations and poor speech quality, especially in out-of-domain scenarios.
In this work, we propose HiFi-SR, a unified network that leverages end-to-end
adversarial training to achieve high-fidelity speech super-resolution. Our
model features a unified transformer-convolutional generator designed to
seamlessly handle both the prediction of latent representations and their
conversion into time-domain waveforms. The transformer network serves as a
powerful encoder, converting low-resolution mel-spectrograms into latent space
representations, while the convolutional network upscales these representations
into high-resolution waveforms. To enhance high-frequency fidelity, we
incorporate a multi-band, multi-scale time-frequency discriminator, along with
a multi-scale mel-reconstruction loss in the adversarial training process.
HiFi-SR is versatile, capable of upscaling any input speech signal between 4
kHz and 32 kHz to a 48 kHz sampling rate. Experimental results demonstrate that
HiFi-SR significantly outperforms existing speech SR methods across both
objective metrics and ABX preference tests, for both in-domain and
out-of-domain scenarios (https://github.com/modelscope/ClearerVoice-Studio).