FocalCodec: Spraakcodering met lage bitsnelheid via Focal Modulatienetwerken
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks
February 6, 2025
Auteurs: Luca Della Libera, Francesco Paissan, Cem Subakan, Mirco Ravanelli
cs.AI
Samenvatting
Grote taalmodellen hebben de natuurlijke taalverwerking gerevolutioneerd door zelftoezicht vooraf te trainen op enorme datasets. Geïnspireerd door dit succes hebben onderzoekers onderzocht hoe ze deze methoden kunnen aanpassen aan spraak door continue audio te discretiseren in tokens met behulp van neurale audiocodecs. Bestaande benaderingen ondervinden echter beperkingen, waaronder hoge bitsnelheden, het verlies van ofwel semantische of akoestische informatie, en de afhankelijkheid van multi-codebook ontwerpen bij pogingen om beide vast te leggen, wat de architecturale complexiteit voor downstream taken verhoogt. Om deze uitdagingen aan te pakken, introduceren we FocalCodec, een efficiënte codec met lage bitsnelheid gebaseerd op focale modulatie die een enkel binair codeboek gebruikt om spraak te comprimeren tussen 0,16 en 0,65 kbps. FocalCodec levert een concurrerende prestatie bij spraakresynthese en stemconversie bij lagere bitsnelheden dan de huidige state-of-the-art, terwijl het effectief omgaat met meertalige spraak en lawaaierige omgevingen. Evaluatie op downstream taken toont aan dat FocalCodec voldoende semantische en akoestische informatie succesvol behoudt, terwijl het ook goed geschikt is voor generatieve modellering. Demo's, code en checkpoints zijn beschikbaar op https://lucadellalib.github.io/focalcodec-web/.
English
Large language models have revolutionized natural language processing through
self-supervised pretraining on massive datasets. Inspired by this success,
researchers have explored adapting these methods to speech by discretizing
continuous audio into tokens using neural audio codecs. However, existing
approaches face limitations, including high bitrates, the loss of either
semantic or acoustic information, and the reliance on multi-codebook designs
when trying to capture both, which increases architectural complexity for
downstream tasks. To address these challenges, we introduce FocalCodec, an
efficient low-bitrate codec based on focal modulation that utilizes a single
binary codebook to compress speech between 0.16 and 0.65 kbps. FocalCodec
delivers competitive performance in speech resynthesis and voice conversion at
lower bitrates than the current state-of-the-art, while effectively handling
multilingual speech and noisy environments. Evaluation on downstream tasks
shows that FocalCodec successfully preserves sufficient semantic and acoustic
information, while also being well-suited for generative modeling. Demo
samples, code and checkpoints are available at
https://lucadellalib.github.io/focalcodec-web/.