FocalCodec: Sprachcodierung mit geringer Bitrate durch Fokalmodulationsnetzwerke
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks
February 6, 2025
Autoren: Luca Della Libera, Francesco Paissan, Cem Subakan, Mirco Ravanelli
cs.AI
Zusammenfassung
Große Sprachmodelle haben die natürliche Sprachverarbeitung durch selbstüberwachtes Vortraining auf umfangreichen Datensätzen revolutioniert. Inspiriert von diesem Erfolg haben Forscher untersucht, wie sich diese Methoden auf Sprache anwenden lassen, indem sie kontinuierliche Audioinhalte in Token umwandeln, die mithilfe neuronaler Audiocodecs erstellt werden. Allerdings stoßen bestehende Ansätze auf Einschränkungen wie hohe Bitraten, den Verlust von semantischen oder akustischen Informationen sowie die Abhängigkeit von Multi-Codebuch-Designs, um beides einzufangen, was die architektonische Komplexität für nachgelagerte Aufgaben erhöht. Um diesen Herausforderungen zu begegnen, stellen wir FocalCodec vor, einen effizienten Niedrig-Bitrate-Codec auf Basis von Fokalmodulation, der ein einziges binäres Codebuch nutzt, um Sprache zwischen 0,16 und 0,65 kbps zu komprimieren. FocalCodec erzielt eine wettbewerbsfähige Leistung bei der Sprachresynthese und der Sprachumwandlung bei niedrigeren Bitraten als der aktuelle Stand der Technik und bewältigt effektiv mehrsprachige Sprache und laute Umgebungen. Die Evaluation bei nachgelagerten Aufgaben zeigt, dass FocalCodec ausreichend semantische und akustische Informationen bewahrt und sich auch gut für generatives Modellieren eignet. Demo-Beispiele, Code und Kontrollpunkte sind verfügbar unter https://lucadellalib.github.io/focalcodec-web/.
English
Large language models have revolutionized natural language processing through
self-supervised pretraining on massive datasets. Inspired by this success,
researchers have explored adapting these methods to speech by discretizing
continuous audio into tokens using neural audio codecs. However, existing
approaches face limitations, including high bitrates, the loss of either
semantic or acoustic information, and the reliance on multi-codebook designs
when trying to capture both, which increases architectural complexity for
downstream tasks. To address these challenges, we introduce FocalCodec, an
efficient low-bitrate codec based on focal modulation that utilizes a single
binary codebook to compress speech between 0.16 and 0.65 kbps. FocalCodec
delivers competitive performance in speech resynthesis and voice conversion at
lower bitrates than the current state-of-the-art, while effectively handling
multilingual speech and noisy environments. Evaluation on downstream tasks
shows that FocalCodec successfully preserves sufficient semantic and acoustic
information, while also being well-suited for generative modeling. Demo
samples, code and checkpoints are available at
https://lucadellalib.github.io/focalcodec-web/.Summary
AI-Generated Summary