ChatPaper.aiChatPaper

FocalCodec: Codifica vocale a basso bitrate tramite reti di modulazione focale

FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks

February 6, 2025
Autori: Luca Della Libera, Francesco Paissan, Cem Subakan, Mirco Ravanelli
cs.AI

Abstract

I grandi modelli linguistici hanno rivoluzionato l'elaborazione del linguaggio naturale attraverso il preaddestramento auto-supervisionato su enormi set di dati. Ispirati da questo successo, i ricercatori hanno esplorato l'adattamento di questi metodi al parlato discretizzando l'audio continuo in token utilizzando codec audio neurali. Tuttavia, gli approcci esistenti presentano limitazioni, tra cui bitrate elevati, la perdita di informazioni semantiche o acustiche e la dipendenza da progetti multi-codebook nel tentativo di catturare entrambi, il che aumenta la complessità architetturale per i compiti successivi. Per affrontare queste sfide, presentiamo FocalCodec, un codec efficiente a basso bitrate basato sulla modulazione focale che utilizza un singolo codebook binario per comprimere il parlato tra 0,16 e 0,65 kbps. FocalCodec offre prestazioni competitive nella risintesi del parlato e nella conversione vocale a bitrate inferiori rispetto allo stato dell'arte attuale, gestendo efficacemente il parlato multilingue e gli ambienti rumorosi. La valutazione sui compiti successivi mostra che FocalCodec preserva con successo informazioni semantiche e acustiche sufficienti, risultando adatto anche per la modellazione generativa. Campioni demo, codice e checkpoint sono disponibili su https://lucadellalib.github.io/focalcodec-web/.
English
Large language models have revolutionized natural language processing through self-supervised pretraining on massive datasets. Inspired by this success, researchers have explored adapting these methods to speech by discretizing continuous audio into tokens using neural audio codecs. However, existing approaches face limitations, including high bitrates, the loss of either semantic or acoustic information, and the reliance on multi-codebook designs when trying to capture both, which increases architectural complexity for downstream tasks. To address these challenges, we introduce FocalCodec, an efficient low-bitrate codec based on focal modulation that utilizes a single binary codebook to compress speech between 0.16 and 0.65 kbps. FocalCodec delivers competitive performance in speech resynthesis and voice conversion at lower bitrates than the current state-of-the-art, while effectively handling multilingual speech and noisy environments. Evaluation on downstream tasks shows that FocalCodec successfully preserves sufficient semantic and acoustic information, while also being well-suited for generative modeling. Demo samples, code and checkpoints are available at https://lucadellalib.github.io/focalcodec-web/.

Summary

AI-Generated Summary

PDF32February 12, 2025