HiFi-SR: Единая генеративная трансформерно-сверточная адверсариальная нейронная сеть для увеличения четкости речи высокой точности

Аннотация

Применение генеративных противоборствующих сетей (GANs) недавно продвинуло улучшение разрешения речи на основе промежуточных представлений, таких как мел-спектрограммы. Однако существующие методы улучшения разрешения речи, обычно основанные на независимо обученных и объединенных сетях, могут привести к несогласованным представлениям и низкому качеству речи, особенно в сценариях вне области применения. В данной работе мы предлагаем HiFi-SR, объединенную сеть, которая использует энд-ту-энд обучение с применением противоборства для достижения высококачественного улучшения разрешения речи. Наша модель включает объединенный трансформаторно-сверточный генератор, разработанный для плавного обработки как предсказания латентных представлений, так и их преобразования в временные волны области времени. Сеть трансформатора служит мощным кодировщиком, преобразуя низкоразрешенные мел-спектрограммы в латентные представления, в то время как сверточная сеть увеличивает разрешение этих представлений до высокочастотных волн. Для улучшения высокочастотной точности мы включаем мульти-диапазонный, мульти-масштабный временно-частотный дискриминатор, а также мульти-масштабную потерю мел-восстановления в процессе обучения с противоборством. HiFi-SR универсален, способен увеличивать разрешение любого входного речевого сигнала между 4 кГц и 32 кГц до частоты дискретизации 48 кГц. Экспериментальные результаты показывают, что HiFi-SR значительно превосходит существующие методы улучшения разрешения речи как по объективным метрикам, так и по тестам предпочтения ABX, как для сценариев внутри области применения, так и вне нее (https://github.com/modelscope/ClearerVoice-Studio).

English

The application of generative adversarial networks (GANs) has recently advanced speech super-resolution (SR) based on intermediate representations like mel-spectrograms. However, existing SR methods that typically rely on independently trained and concatenated networks may lead to inconsistent representations and poor speech quality, especially in out-of-domain scenarios. In this work, we propose HiFi-SR, a unified network that leverages end-to-end adversarial training to achieve high-fidelity speech super-resolution. Our model features a unified transformer-convolutional generator designed to seamlessly handle both the prediction of latent representations and their conversion into time-domain waveforms. The transformer network serves as a powerful encoder, converting low-resolution mel-spectrograms into latent space representations, while the convolutional network upscales these representations into high-resolution waveforms. To enhance high-frequency fidelity, we incorporate a multi-band, multi-scale time-frequency discriminator, along with a multi-scale mel-reconstruction loss in the adversarial training process. HiFi-SR is versatile, capable of upscaling any input speech signal between 4 kHz and 32 kHz to a 48 kHz sampling rate. Experimental results demonstrate that HiFi-SR significantly outperforms existing speech SR methods across both objective metrics and ABX preference tests, for both in-domain and out-of-domain scenarios (https://github.com/modelscope/ClearerVoice-Studio).