FocalCodec: Codificación de voz de baja tasa de bits a través de redes de modulación focal
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks
February 6, 2025
Autores: Luca Della Libera, Francesco Paissan, Cem Subakan, Mirco Ravanelli
cs.AI
Resumen
Los grandes modelos de lenguaje han revolucionado el procesamiento del lenguaje natural a través de preentrenamiento auto-supervisado en conjuntos de datos masivos. Inspirados por este éxito, los investigadores han explorado la adaptación de estos métodos al habla mediante la discretización de audio continuo en tokens utilizando códecs neurales de audio. Sin embargo, los enfoques existentes enfrentan limitaciones, incluyendo altas tasas de bits, la pérdida de información semántica o acústica, y la dependencia de diseños de múltiples codebooks al intentar capturar ambos aspectos, lo que aumenta la complejidad arquitectónica para tareas posteriores. Para abordar estos desafíos, presentamos FocalCodec, un códec eficiente de baja tasa de bits basado en modulación focal que utiliza un único codebook binario para comprimir el habla entre 0.16 y 0.65 kbps. FocalCodec ofrece un rendimiento competitivo en la resíntesis del habla y la conversión de voz a tasas de bits más bajas que el estado del arte actual, mientras maneja de manera efectiva el habla multilingüe y entornos ruidosos. La evaluación en tareas posteriores muestra que FocalCodec preserva con éxito información semántica y acústica suficiente, siendo también adecuado para modelado generativo. Ejemplos de demostración, código y puntos de control están disponibles en https://lucadellalib.github.io/focalcodec-web/.
English
Large language models have revolutionized natural language processing through
self-supervised pretraining on massive datasets. Inspired by this success,
researchers have explored adapting these methods to speech by discretizing
continuous audio into tokens using neural audio codecs. However, existing
approaches face limitations, including high bitrates, the loss of either
semantic or acoustic information, and the reliance on multi-codebook designs
when trying to capture both, which increases architectural complexity for
downstream tasks. To address these challenges, we introduce FocalCodec, an
efficient low-bitrate codec based on focal modulation that utilizes a single
binary codebook to compress speech between 0.16 and 0.65 kbps. FocalCodec
delivers competitive performance in speech resynthesis and voice conversion at
lower bitrates than the current state-of-the-art, while effectively handling
multilingual speech and noisy environments. Evaluation on downstream tasks
shows that FocalCodec successfully preserves sufficient semantic and acoustic
information, while also being well-suited for generative modeling. Demo
samples, code and checkpoints are available at
https://lucadellalib.github.io/focalcodec-web/.Summary
AI-Generated Summary