ChatPaper.aiChatPaper

JEPA als neurale tokenizer: het leren van robuuste spraakrepresentaties met dichtheidsadaptieve aandacht

JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention

December 8, 2025
Auteurs: Georgios Ioannides, Christos Constantinou, Aman Chadha, Aaron Elkins, Linsey Pang, Ravid Shwartz-Ziv, Yann LeCun
cs.AI

Samenvatting

Wij introduceren een tweefasen, zelf-gesuperviseerd raamwerk dat de Joint-Embedding Predictive Architecture (JEPA) combineert met een Density Adaptive Attention Mechanism (DAAM) voor het leren van robuuste spraakrepresentaties. Fase~1 gebruikt JEPA met DAAM om semantische audio-eigenschappen te leren via gemaskeerde voorspelling in de latente ruimte, volledig losgekoppeld van golfvormreconstructie. Fase~2 benut deze representaties voor efficiënte tokenisatie met behulp van Finite Scalar Quantization (FSQ) en een mixed-radix pack-schema, gevolgd door hoogwaardige golfvormreconstructie met een HiFi-GAN decoder. Door op Gaussische mengsels gebaseerde, dichtheid-adaptieve gating te integreren in de JEPA-encoder, voert het model adaptieve temporele feature-selectie uit en ontdekt het hiërarchische spraakstructuur bij een lage framesnelheid van 2.5~Hz. De resulterende tokens (47.5 tokens/sec) vormen een omkeerbare, sterk gecomprimeerde en voor taalmodelgebruik geschikte representatie die concurrerend is met, en vaak efficiënter dan, bestaande neurale audiocodecs.
English
We introduce a two-stage self-supervised framework that combines the Joint-Embedding Predictive Architecture (JEPA) with a Density Adaptive Attention Mechanism (DAAM) for learning robust speech representations. Stage~1 uses JEPA with DAAM to learn semantic audio features via masked prediction in latent space, fully decoupled from waveform reconstruction. Stage~2 leverages these representations for efficient tokenization using Finite Scalar Quantization (FSQ) and a mixed-radix packing scheme, followed by high-fidelity waveform reconstruction with a HiFi-GAN decoder. By integrating Gaussian mixture-based density-adaptive gating into the JEPA encoder, the model performs adaptive temporal feature selection and discovers hierarchical speech structure at a low frame rate of 2.5~Hz. The resulting tokens (47.5 tokens/sec) provide a reversible, highly compressed, and language-model-friendly representation that is competitive with, and often more efficient than, existing neural audio codecs.
PDF12December 10, 2025