HiFi-SR : Un réseau adversarial génératif unifié Transformer-Convolutionnel pour la super-résolution de la parole haute fidélité
HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution
January 17, 2025
Auteurs: Shengkui Zhao, Kun Zhou, Zexu Pan, Yukun Ma, Chong Zhang, Bin Ma
cs.AI
Résumé
L'application des réseaux génératifs antagonistes (GAN) a récemment fait progresser la super-résolution de la parole basée sur des représentations intermédiaires telles que les mélo-spectrogrammes. Cependant, les méthodes de super-résolution existantes qui reposent généralement sur des réseaux entraînés de manière indépendante et concaténés peuvent conduire à des représentations incohérentes et une mauvaise qualité de la parole, en particulier dans des scénarios hors domaine. Dans ce travail, nous proposons HiFi-SR, un réseau unifié qui exploite l'entraînement antagoniste de bout en bout pour atteindre une super-résolution de la parole haute fidélité. Notre modèle présente un générateur transformateur-convolutif unifié conçu pour gérer de manière transparente à la fois la prédiction des représentations latentes et leur conversion en formes d'onde dans le domaine temporel. Le réseau transformateur agit en tant qu'encodeur puissant, convertissant les mélo-spectrogrammes basse résolution en représentations d'espace latent, tandis que le réseau convolutif met à l'échelle ces représentations en formes d'onde haute résolution. Pour améliorer la fidélité des hautes fréquences, nous incorporons un discriminateur multi-bande, multi-échelle temps-fréquence, ainsi qu'une perte de reconstruction mélo multi-échelle dans le processus d'entraînement antagoniste. HiFi-SR est polyvalent, capable d'augmenter le taux d'échantillonnage de toute signal vocal d'entrée entre 4 kHz et 32 kHz à 48 kHz. Les résultats expérimentaux démontrent que HiFi-SR surpasse significativement les méthodes existantes de super-résolution de la parole à la fois en termes de mesures objectives et de tests de préférence ABX, pour les scénarios à la fois dans le domaine et hors domaine (https://github.com/modelscope/ClearerVoice-Studio).
English
The application of generative adversarial networks (GANs) has recently
advanced speech super-resolution (SR) based on intermediate representations
like mel-spectrograms. However, existing SR methods that typically rely on
independently trained and concatenated networks may lead to inconsistent
representations and poor speech quality, especially in out-of-domain scenarios.
In this work, we propose HiFi-SR, a unified network that leverages end-to-end
adversarial training to achieve high-fidelity speech super-resolution. Our
model features a unified transformer-convolutional generator designed to
seamlessly handle both the prediction of latent representations and their
conversion into time-domain waveforms. The transformer network serves as a
powerful encoder, converting low-resolution mel-spectrograms into latent space
representations, while the convolutional network upscales these representations
into high-resolution waveforms. To enhance high-frequency fidelity, we
incorporate a multi-band, multi-scale time-frequency discriminator, along with
a multi-scale mel-reconstruction loss in the adversarial training process.
HiFi-SR is versatile, capable of upscaling any input speech signal between 4
kHz and 32 kHz to a 48 kHz sampling rate. Experimental results demonstrate that
HiFi-SR significantly outperforms existing speech SR methods across both
objective metrics and ABX preference tests, for both in-domain and
out-of-domain scenarios (https://github.com/modelscope/ClearerVoice-Studio).Summary
AI-Generated Summary