ChatPaper.aiChatPaper

JEPA als neuronaler Tokenizer: Lernen robuster Sprachrepräsentationen mit dichteadaptiver Aufmerksamkeit

JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention

December 8, 2025
papers.authors: Georgios Ioannides, Christos Constantinou, Aman Chadha, Aaron Elkins, Linsey Pang, Ravid Shwartz-Ziv, Yann LeCun
cs.AI

papers.abstract

Wir stellen ein zweistufiges selbstüberwachtes Framework vor, das die Joint-Embedding Predictive Architecture (JEPA) mit einem Density Adaptive Attention Mechanism (DAAM) kombiniert, um robuste Sprachrepräsentationen zu erlernen. Stufe~1 nutzt JEPA mit DAAM, um semantische Audiofeatures durch maskierte Prädiktion im latenten Raum zu erlernen, vollständig entkoppelt von der Wellenformrekonstruktion. Stufe~2 nutzt diese Repräsentationen für eine effiziente Tokenisierung mittels Finite Scalar Quantization (FSQ) und einem Mixed-Radix-Packing-Schema, gefolgt von einer hochpräzisen Wellenformrekonstruktion mit einem HiFi-GAN-Decoder. Durch die Integration einer dichteadaptiven Gating-Funktion auf Basis von Gaußschen Mixturen in den JEPA-Encoder führt das Modell eine adaptive temporale Merkmalsselektion durch und entdeckt hierarchische Sprachstrukturen bei einer niedrigen Framerate von 2,5~Hz. Die resultierenden Tokens (47,5 Tokens/Sek.) bieten eine reversible, hochkomprimierte und für Sprachmodelle geeignete Repräsentation, die mit existierenden neuronalen Audiocodecs konkurrieren kann und oft effizienter ist.
English
We introduce a two-stage self-supervised framework that combines the Joint-Embedding Predictive Architecture (JEPA) with a Density Adaptive Attention Mechanism (DAAM) for learning robust speech representations. Stage~1 uses JEPA with DAAM to learn semantic audio features via masked prediction in latent space, fully decoupled from waveform reconstruction. Stage~2 leverages these representations for efficient tokenization using Finite Scalar Quantization (FSQ) and a mixed-radix packing scheme, followed by high-fidelity waveform reconstruction with a HiFi-GAN decoder. By integrating Gaussian mixture-based density-adaptive gating into the JEPA encoder, the model performs adaptive temporal feature selection and discovers hierarchical speech structure at a low frame rate of 2.5~Hz. The resulting tokens (47.5 tokens/sec) provide a reversible, highly compressed, and language-model-friendly representation that is competitive with, and often more efficient than, existing neural audio codecs.
PDF12December 10, 2025