JEPA como Tokenizador Neural: Aprendendo Representações Robustas de Fala com Atenção de Densidade Adaptável
JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention
December 8, 2025
Autores: Georgios Ioannides, Christos Constantinou, Aman Chadha, Aaron Elkins, Linsey Pang, Ravid Shwartz-Ziv, Yann LeCun
cs.AI
Resumo
Apresentamos uma estrututa auto supervisionada de dois estágios que combina a Arquitetura Preditiva de Incorporação Conjunta (JEPA) com um Mecanismo de Atenção de Adaptação de Densidade (DAAM) para aprender representações robustas de fala. O Estágio~1 utiliza JEPA com DAAM para aprender características semânticas de áudio por meio de predição mascarada no espaço latente, totalmente dissociada da reconstrução de forma de onda. O Estágio~2 aproveita essas representações para uma tokenização eficiente usando Quantização Escalar Finita (FSQ) e um esquema de empacotamento de base mista, seguido por uma reconstrução de forma de onda de alta fidelidade com um decodificador HiFi-GAN. Ao integrar uma portada de adaptação de densidade baseada em mistura gaussiana no codificador JEPA, o modelo realiza seleção adaptativa de características temporais e descobre uma estrutura hierárquica da fala a uma baixa taxa de quadros de 2,5~Hz. Os *tokens* resultantes (47,5 *tokens*/seg) fornecem uma representação reversível, altamente compactada e compatível com modelos de linguagem, que é competitiva e frequentemente mais eficiente do que os codecs neurais de áudio existentes.
English
We introduce a two-stage self-supervised framework that combines the Joint-Embedding Predictive Architecture (JEPA) with a Density Adaptive Attention Mechanism (DAAM) for learning robust speech representations. Stage~1 uses JEPA with DAAM to learn semantic audio features via masked prediction in latent space, fully decoupled from waveform reconstruction. Stage~2 leverages these representations for efficient tokenization using Finite Scalar Quantization (FSQ) and a mixed-radix packing scheme, followed by high-fidelity waveform reconstruction with a HiFi-GAN decoder. By integrating Gaussian mixture-based density-adaptive gating into the JEPA encoder, the model performs adaptive temporal feature selection and discovers hierarchical speech structure at a low frame rate of 2.5~Hz. The resulting tokens (47.5 tokens/sec) provide a reversible, highly compressed, and language-model-friendly representation that is competitive with, and often more efficient than, existing neural audio codecs.