ChatPaper.aiChatPaper

HiFi-SR: Единая генеративная трансформерно-сверточная адверсариальная нейронная сеть для увеличения четкости речи высокой точности

HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution

January 17, 2025
Авторы: Shengkui Zhao, Kun Zhou, Zexu Pan, Yukun Ma, Chong Zhang, Bin Ma
cs.AI

Аннотация

Применение генеративных противоборствующих сетей (GANs) недавно продвинуло улучшение разрешения речи на основе промежуточных представлений, таких как мел-спектрограммы. Однако существующие методы улучшения разрешения речи, обычно основанные на независимо обученных и объединенных сетях, могут привести к несогласованным представлениям и низкому качеству речи, особенно в сценариях вне области применения. В данной работе мы предлагаем HiFi-SR, объединенную сеть, которая использует энд-ту-энд обучение с применением противоборства для достижения высококачественного улучшения разрешения речи. Наша модель включает объединенный трансформаторно-сверточный генератор, разработанный для плавного обработки как предсказания латентных представлений, так и их преобразования в временные волны области времени. Сеть трансформатора служит мощным кодировщиком, преобразуя низкоразрешенные мел-спектрограммы в латентные представления, в то время как сверточная сеть увеличивает разрешение этих представлений до высокочастотных волн. Для улучшения высокочастотной точности мы включаем мульти-диапазонный, мульти-масштабный временно-частотный дискриминатор, а также мульти-масштабную потерю мел-восстановления в процессе обучения с противоборством. HiFi-SR универсален, способен увеличивать разрешение любого входного речевого сигнала между 4 кГц и 32 кГц до частоты дискретизации 48 кГц. Экспериментальные результаты показывают, что HiFi-SR значительно превосходит существующие методы улучшения разрешения речи как по объективным метрикам, так и по тестам предпочтения ABX, как для сценариев внутри области применения, так и вне нее (https://github.com/modelscope/ClearerVoice-Studio).
English
The application of generative adversarial networks (GANs) has recently advanced speech super-resolution (SR) based on intermediate representations like mel-spectrograms. However, existing SR methods that typically rely on independently trained and concatenated networks may lead to inconsistent representations and poor speech quality, especially in out-of-domain scenarios. In this work, we propose HiFi-SR, a unified network that leverages end-to-end adversarial training to achieve high-fidelity speech super-resolution. Our model features a unified transformer-convolutional generator designed to seamlessly handle both the prediction of latent representations and their conversion into time-domain waveforms. The transformer network serves as a powerful encoder, converting low-resolution mel-spectrograms into latent space representations, while the convolutional network upscales these representations into high-resolution waveforms. To enhance high-frequency fidelity, we incorporate a multi-band, multi-scale time-frequency discriminator, along with a multi-scale mel-reconstruction loss in the adversarial training process. HiFi-SR is versatile, capable of upscaling any input speech signal between 4 kHz and 32 kHz to a 48 kHz sampling rate. Experimental results demonstrate that HiFi-SR significantly outperforms existing speech SR methods across both objective metrics and ABX preference tests, for both in-domain and out-of-domain scenarios (https://github.com/modelscope/ClearerVoice-Studio).

Summary

AI-Generated Summary

PDF93January 20, 2025