FocalCodec : Codage vocal à faible débit binaire via des réseaux de modulation focale
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks
February 6, 2025
Auteurs: Luca Della Libera, Francesco Paissan, Cem Subakan, Mirco Ravanelli
cs.AI
Résumé
Les grands modèles de langage ont révolutionné le traitement automatique du langage naturel grâce à un pré-entraînement auto-supervisé sur des ensembles de données massifs. Inspirés par ce succès, les chercheurs ont exploré l'adaptation de ces méthodes à la parole en discrétisant l'audio continu en jetons à l'aide de codecs audio neuronaux. Cependant, les approches existantes présentent des limitations, notamment des débits binaires élevés, la perte d'informations sémantiques ou acoustiques, et la dépendance à des conceptions multi-codebook lors de la tentative de capture des deux, ce qui accroît la complexité architecturale pour les tâches en aval. Pour relever ces défis, nous présentons FocalCodec, un codec à faible débit efficace basé sur la modulation focale qui utilise un seul codebook binaire pour compresser la parole entre 0,16 et 0,65 kbps. FocalCodec offre des performances compétitives en resynthèse de la parole et en conversion vocale à des débits binaires inférieurs à l'état de l'art actuel, tout en gérant efficacement la parole multilingue et les environnements bruyants. L'évaluation sur des tâches en aval montre que FocalCodec préserve avec succès des informations sémantiques et acoustiques suffisantes, tout en étant également bien adapté à la modélisation générative. Des échantillons de démonstration, du code et des points de contrôle sont disponibles sur https://lucadellalib.github.io/focalcodec-web/.
English
Large language models have revolutionized natural language processing through
self-supervised pretraining on massive datasets. Inspired by this success,
researchers have explored adapting these methods to speech by discretizing
continuous audio into tokens using neural audio codecs. However, existing
approaches face limitations, including high bitrates, the loss of either
semantic or acoustic information, and the reliance on multi-codebook designs
when trying to capture both, which increases architectural complexity for
downstream tasks. To address these challenges, we introduce FocalCodec, an
efficient low-bitrate codec based on focal modulation that utilizes a single
binary codebook to compress speech between 0.16 and 0.65 kbps. FocalCodec
delivers competitive performance in speech resynthesis and voice conversion at
lower bitrates than the current state-of-the-art, while effectively handling
multilingual speech and noisy environments. Evaluation on downstream tasks
shows that FocalCodec successfully preserves sufficient semantic and acoustic
information, while also being well-suited for generative modeling. Demo
samples, code and checkpoints are available at
https://lucadellalib.github.io/focalcodec-web/.