FocalCodec: Codificación de voz de baja tasa de bits a través de redes de modulación focal

Resumen

Los grandes modelos de lenguaje han revolucionado el procesamiento del lenguaje natural a través de preentrenamiento auto-supervisado en conjuntos de datos masivos. Inspirados por este éxito, los investigadores han explorado la adaptación de estos métodos al habla mediante la discretización de audio continuo en tokens utilizando códecs neurales de audio. Sin embargo, los enfoques existentes enfrentan limitaciones, incluyendo altas tasas de bits, la pérdida de información semántica o acústica, y la dependencia de diseños de múltiples codebooks al intentar capturar ambos aspectos, lo que aumenta la complejidad arquitectónica para tareas posteriores. Para abordar estos desafíos, presentamos FocalCodec, un códec eficiente de baja tasa de bits basado en modulación focal que utiliza un único codebook binario para comprimir el habla entre 0.16 y 0.65 kbps. FocalCodec ofrece un rendimiento competitivo en la resíntesis del habla y la conversión de voz a tasas de bits más bajas que el estado del arte actual, mientras maneja de manera efectiva el habla multilingüe y entornos ruidosos. La evaluación en tareas posteriores muestra que FocalCodec preserva con éxito información semántica y acústica suficiente, siendo también adecuado para modelado generativo. Ejemplos de demostración, código y puntos de control están disponibles en https://lucadellalib.github.io/focalcodec-web/.

English

Large language models have revolutionized natural language processing through self-supervised pretraining on massive datasets. Inspired by this success, researchers have explored adapting these methods to speech by discretizing continuous audio into tokens using neural audio codecs. However, existing approaches face limitations, including high bitrates, the loss of either semantic or acoustic information, and the reliance on multi-codebook designs when trying to capture both, which increases architectural complexity for downstream tasks. To address these challenges, we introduce FocalCodec, an efficient low-bitrate codec based on focal modulation that utilizes a single binary codebook to compress speech between 0.16 and 0.65 kbps. FocalCodec delivers competitive performance in speech resynthesis and voice conversion at lower bitrates than the current state-of-the-art, while effectively handling multilingual speech and noisy environments. Evaluation on downstream tasks shows that FocalCodec successfully preserves sufficient semantic and acoustic information, while also being well-suited for generative modeling. Demo samples, code and checkpoints are available at https://lucadellalib.github.io/focalcodec-web/.

FocalCodec: Codificación de voz de baja tasa de bits a través de redes de modulación focal

FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks

Resumen

Support