JEPA come Tokenizzatore Neurale: Apprendimento di Rappresentazioni Robuste del Parlato con Attenzione a Densità Adattiva
JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention
December 8, 2025
Autori: Georgios Ioannides, Christos Constantinou, Aman Chadha, Aaron Elkins, Linsey Pang, Ravid Shwartz-Ziv, Yann LeCun
cs.AI
Abstract
Introduciamo un framework auto-supervisionato a due stadi che combina la Joint-Embedding Predictive Architecture (JEPA) con un Density Adaptive Attention Mechanism (DAAM) per l'apprendimento di rappresentazioni vocali robuste. Lo Stadio~1 utilizza JEPA con DAAM per apprendere caratteristiche audio semantiche tramite predizione mascherata nello spazio latente, completamente disaccoppiata dalla ricostruzione della forma d'onda. Lo Stadio~2 sfrutta queste rappresentazioni per una efficiente tokenizzazione utilizzando la Finite Scalar Quantization (FSQ) e uno schema di impacchettamento a base mista, seguita da una ricostruzione ad alta fedeltà della forma d'onda con un decodificatore HiFi-GAN. Integrando un meccanismo di gating adattivo alla densità basato su misture gaussiane nell'encoder JEPA, il modello esegue una selezione adattiva di caratteristiche temporali e scopre una struttura vocale gerarchica a un basso frame rate di 2.5~Hz. I token risultanti (47.5 token/sec) forniscono una rappresentazione reversibile, altamente compressa e adatta per modelli linguistici, che è competitiva con, e spesso più efficiente di, i codec audio neurali esistenti.
English
We introduce a two-stage self-supervised framework that combines the Joint-Embedding Predictive Architecture (JEPA) with a Density Adaptive Attention Mechanism (DAAM) for learning robust speech representations. Stage~1 uses JEPA with DAAM to learn semantic audio features via masked prediction in latent space, fully decoupled from waveform reconstruction. Stage~2 leverages these representations for efficient tokenization using Finite Scalar Quantization (FSQ) and a mixed-radix packing scheme, followed by high-fidelity waveform reconstruction with a HiFi-GAN decoder. By integrating Gaussian mixture-based density-adaptive gating into the JEPA encoder, the model performs adaptive temporal feature selection and discovers hierarchical speech structure at a low frame rate of 2.5~Hz. The resulting tokens (47.5 tokens/sec) provide a reversible, highly compressed, and language-model-friendly representation that is competitive with, and often more efficient than, existing neural audio codecs.