ChatPaper.aiChatPaper

HiFi-SR: Una Rete Generativa Unificata Transformer-Convolutionale Avversaria per la Super-Risoluzione dell'Audio ad Alta Fedeltà

HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution

January 17, 2025
Autori: Shengkui Zhao, Kun Zhou, Zexu Pan, Yukun Ma, Chong Zhang, Bin Ma
cs.AI

Abstract

L'applicazione delle reti generative avversarie (GAN) ha recentemente avanzato la super risoluzione del parlato (SR) basata su rappresentazioni intermedie come i mel-spettrogrammi. Tuttavia, i metodi SR esistenti che di solito si basano su reti addestrate in modo indipendente e concatenate possono portare a rappresentazioni inconsistenti e a una scarsa qualità del parlato, specialmente in scenari fuori dominio. In questo lavoro, proponiamo HiFi-SR, una rete unificata che sfrutta l'addestramento avversario end-to-end per raggiungere una super risoluzione del parlato ad alta fedeltà. Il nostro modello presenta un generatore trasformatore-convoluzionale unificato progettato per gestire senza soluzione di continuità sia la previsione delle rappresentazioni latenti che la loro conversione in forme d'onda nel dominio del tempo. La rete trasformatore funge da potente codificatore, convertendo i mel-spettrogrammi a bassa risoluzione in rappresentazioni nello spazio latente, mentre la rete convoluzionale ingrandisce queste rappresentazioni in forme d'onda ad alta risoluzione. Per migliorare la fedeltà alle alte frequenze, incorporiamo un discriminatore tempo-frequenza multi-banda e multi-scala, insieme a una perdita di ricostruzione mel multi-scala nel processo di addestramento avversario. HiFi-SR è versatile, in grado di ingrandire qualsiasi segnale vocale in ingresso tra 4 kHz e 32 kHz a un tasso di campionamento di 48 kHz. I risultati sperimentali dimostrano che HiFi-SR supera significativamente i metodi SR del parlato esistenti sia in termini di metriche oggettive che di test di preferenza ABX, sia per scenari in-dominio che fuori dominio (https://github.com/modelscope/ClearerVoice-Studio).
English
The application of generative adversarial networks (GANs) has recently advanced speech super-resolution (SR) based on intermediate representations like mel-spectrograms. However, existing SR methods that typically rely on independently trained and concatenated networks may lead to inconsistent representations and poor speech quality, especially in out-of-domain scenarios. In this work, we propose HiFi-SR, a unified network that leverages end-to-end adversarial training to achieve high-fidelity speech super-resolution. Our model features a unified transformer-convolutional generator designed to seamlessly handle both the prediction of latent representations and their conversion into time-domain waveforms. The transformer network serves as a powerful encoder, converting low-resolution mel-spectrograms into latent space representations, while the convolutional network upscales these representations into high-resolution waveforms. To enhance high-frequency fidelity, we incorporate a multi-band, multi-scale time-frequency discriminator, along with a multi-scale mel-reconstruction loss in the adversarial training process. HiFi-SR is versatile, capable of upscaling any input speech signal between 4 kHz and 32 kHz to a 48 kHz sampling rate. Experimental results demonstrate that HiFi-SR significantly outperforms existing speech SR methods across both objective metrics and ABX preference tests, for both in-domain and out-of-domain scenarios (https://github.com/modelscope/ClearerVoice-Studio).

Summary

AI-Generated Summary

PDF93January 20, 2025