ChatPaper.aiChatPaper

JEPAによるニューラルトークナイザー:密度適応型アテンションを用いたロバスト音声表現の学習

JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention

December 8, 2025
著者: Georgios Ioannides, Christos Constantinou, Aman Chadha, Aaron Elkins, Linsey Pang, Ravid Shwartz-Ziv, Yann LeCun
cs.AI

要旨

我々は、Joint-Embedding Predictive Architecture (JEPA) と Density Adaptive Attention Mechanism (DAAM) を組み合わせた、2段階の自己教師型フレームワークを提案する。これはロバストな音声表現を学習するためのものである。第1段階では、JEPAにDAAMを組み合わせて潜在空間におけるマスク予測を通じて意味的な音声特徴を学習し、波形再構成から完全に分離する。第2段階では、これらの表現を活用し、Finite Scalar Quantization (FSQ) と混合基数パッキング方式を用いた効率的なトークン化を行い、続いてHiFi-GANデコーダによる高忠実度の波形再構成を実現する。ガウス混合モデルに基づく密度適応型ゲーティングをJEPAエンコーダに統合することで、モデルは適応的時間的特徴選択を実行し、2.5 Hzという低いフレームレートで階層的な音声構造を発見する。生成されるトークン(47.5トークン/秒)は、可逆的で高圧縮かつ言語モデルに適した表現を提供し、既存の神経音声コーデックと同等あるいはそれを上回る効率性を実現する。
English
We introduce a two-stage self-supervised framework that combines the Joint-Embedding Predictive Architecture (JEPA) with a Density Adaptive Attention Mechanism (DAAM) for learning robust speech representations. Stage~1 uses JEPA with DAAM to learn semantic audio features via masked prediction in latent space, fully decoupled from waveform reconstruction. Stage~2 leverages these representations for efficient tokenization using Finite Scalar Quantization (FSQ) and a mixed-radix packing scheme, followed by high-fidelity waveform reconstruction with a HiFi-GAN decoder. By integrating Gaussian mixture-based density-adaptive gating into the JEPA encoder, the model performs adaptive temporal feature selection and discovers hierarchical speech structure at a low frame rate of 2.5~Hz. The resulting tokens (47.5 tokens/sec) provide a reversible, highly compressed, and language-model-friendly representation that is competitive with, and often more efficient than, existing neural audio codecs.
PDF12December 10, 2025