ChatPaper.aiChatPaper

FocalCodec: フォーカルモジュレーションネットワークを用いた低ビットレート音声符号化

FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks

February 6, 2025
著者: Luca Della Libera, Francesco Paissan, Cem Subakan, Mirco Ravanelli
cs.AI

要旨

大規模言語モデルは、巨大なデータセットでの自己教師付き事前トレーニングを通じて、自然言語処理を革新しました。この成功に触発され、研究者たちは、連続したオーディオをトークンに分割することで、ニューラルオーディオコーデックを使用してこれらの手法を音声に適応することを探求してきました。ただし、既存の手法には、高ビットレート、意味情報または音響情報のいずれかの損失、および両方を捉えようとする際のマルチコードブック設計への依存などの制限があります。これにより、下流タスクのためのアーキテクチャの複雑さが増加します。これらの課題に対処するために、私たちはFocalCodecを導入します。これは、単一のバイナリコードブックを利用して、音声を0.16から0.65 kbpsで圧縮するフォーカルモジュレーションに基づく効率的な低ビットレートコーデックです。FocalCodecは、現行の最先端技術よりも低ビットレートで音声再合成や音声変換において競争力のあるパフォーマンスを提供し、多言語音声や騒音環境を効果的に処理します。下流タスクでの評価では、FocalCodecが十分な意味情報と音響情報を保持し、生成モデリングにも適していることが示されています。デモサンプル、コード、チェックポイントは、https://lucadellalib.github.io/focalcodec-web/ で入手可能です。
English
Large language models have revolutionized natural language processing through self-supervised pretraining on massive datasets. Inspired by this success, researchers have explored adapting these methods to speech by discretizing continuous audio into tokens using neural audio codecs. However, existing approaches face limitations, including high bitrates, the loss of either semantic or acoustic information, and the reliance on multi-codebook designs when trying to capture both, which increases architectural complexity for downstream tasks. To address these challenges, we introduce FocalCodec, an efficient low-bitrate codec based on focal modulation that utilizes a single binary codebook to compress speech between 0.16 and 0.65 kbps. FocalCodec delivers competitive performance in speech resynthesis and voice conversion at lower bitrates than the current state-of-the-art, while effectively handling multilingual speech and noisy environments. Evaluation on downstream tasks shows that FocalCodec successfully preserves sufficient semantic and acoustic information, while also being well-suited for generative modeling. Demo samples, code and checkpoints are available at https://lucadellalib.github.io/focalcodec-web/.

Summary

AI-Generated Summary

PDF32February 12, 2025