FocalCodec: Codificação de Voz de Baixa Taxa de Bits via Redes de Modulação Focal
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks
February 6, 2025
Autores: Luca Della Libera, Francesco Paissan, Cem Subakan, Mirco Ravanelli
cs.AI
Resumo
Grandes modelos de linguagem revolucionaram o processamento de linguagem natural por meio de pré-treinamento auto-supervisionado em conjuntos de dados massivos. Inspirados por esse sucesso, pesquisadores têm explorado a adaptação desses métodos para fala, discretizando áudio contínuo em tokens usando codecs neurais de áudio. No entanto, abordagens existentes enfrentam limitações, incluindo altas taxas de bits, a perda de informações semânticas ou acústicas, e a dependência de designs multi-codebook ao tentar capturar ambos, o que aumenta a complexidade arquitetônica para tarefas subsequentes. Para enfrentar esses desafios, apresentamos o FocalCodec, um codec eficiente de baixa taxa de bits baseado em modulação focal que utiliza um único codebook binário para comprimir fala entre 0,16 e 0,65 kbps. O FocalCodec oferece desempenho competitivo na ressíntese de fala e conversão de voz em taxas de bits mais baixas do que o estado da arte atual, enquanto lida efetivamente com fala multilíngue e ambientes ruidosos. A avaliação em tarefas subsequentes mostra que o FocalCodec preserva com sucesso informações semânticas e acústicas suficientes, sendo também adequado para modelagem generativa. Amostras de demonstração, código e checkpoints estão disponíveis em https://lucadellalib.github.io/focalcodec-web/.
English
Large language models have revolutionized natural language processing through
self-supervised pretraining on massive datasets. Inspired by this success,
researchers have explored adapting these methods to speech by discretizing
continuous audio into tokens using neural audio codecs. However, existing
approaches face limitations, including high bitrates, the loss of either
semantic or acoustic information, and the reliance on multi-codebook designs
when trying to capture both, which increases architectural complexity for
downstream tasks. To address these challenges, we introduce FocalCodec, an
efficient low-bitrate codec based on focal modulation that utilizes a single
binary codebook to compress speech between 0.16 and 0.65 kbps. FocalCodec
delivers competitive performance in speech resynthesis and voice conversion at
lower bitrates than the current state-of-the-art, while effectively handling
multilingual speech and noisy environments. Evaluation on downstream tasks
shows that FocalCodec successfully preserves sufficient semantic and acoustic
information, while also being well-suited for generative modeling. Demo
samples, code and checkpoints are available at
https://lucadellalib.github.io/focalcodec-web/.Summary
AI-Generated Summary