JEPA en tant que tokeniseur neuronal : Apprentissage de représentations robustes de la parole avec une attention adaptative à la densité
JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention
December 8, 2025
papers.authors: Georgios Ioannides, Christos Constantinou, Aman Chadha, Aaron Elkins, Linsey Pang, Ravid Shwartz-Ziv, Yann LeCun
cs.AI
papers.abstract
Nous présentons un cadre auto-supervisé à deux étages qui combine l'Architecture Prédictive à Codage Conjoint (JEPA) avec un Mécanisme d'Attention à Densité Adaptative (DAAM) pour l'apprentissage de représentations robustes de la parole. L'étape~1 utilise la JEPA avec le DAAM pour apprendre des caractéristiques audio sémantiques via une prédiction masquée dans l'espace latent, entièrement découplée de la reconstruction de la forme d'onde. L'étape~2 exploite ces représentations pour une tokenisation efficace à l'aide de la Quantification Scalaire Finie (FSQ) et d'un schéma d'empaquetage à base mixte, suivie d'une reconstruction de forme d'onde haute fidélité avec un décodeur HiFi-GAN. En intégrant un mécanisme d'activation basé sur un mélange gaussien à densité adaptative dans l'encodeur JEPA, le modèle effectue une sélection adaptative des caractéristiques temporelles et découvre une structure hiérarchique de la parole à une faible fréquence d'images de 2,5~Hz. Les tokens résultants (47,5 tokens/sec) fournissent une représentation réversible, hautement compressée et adaptée aux modèles de langage, qui est compétitive avec, et souvent plus efficace que, les codecs audio neuronaux existants.
English
We introduce a two-stage self-supervised framework that combines the Joint-Embedding Predictive Architecture (JEPA) with a Density Adaptive Attention Mechanism (DAAM) for learning robust speech representations. Stage~1 uses JEPA with DAAM to learn semantic audio features via masked prediction in latent space, fully decoupled from waveform reconstruction. Stage~2 leverages these representations for efficient tokenization using Finite Scalar Quantization (FSQ) and a mixed-radix packing scheme, followed by high-fidelity waveform reconstruction with a HiFi-GAN decoder. By integrating Gaussian mixture-based density-adaptive gating into the JEPA encoder, the model performs adaptive temporal feature selection and discovers hierarchical speech structure at a low frame rate of 2.5~Hz. The resulting tokens (47.5 tokens/sec) provide a reversible, highly compressed, and language-model-friendly representation that is competitive with, and often more efficient than, existing neural audio codecs.