ChatPaper.aiChatPaper

JEPA como Tokenizador Neuronal: Aprendizaje de Representaciones Robustas del Habla con Atención de Densidad Adaptativa

JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention

December 8, 2025
Autores: Georgios Ioannides, Christos Constantinou, Aman Chadha, Aaron Elkins, Linsey Pang, Ravid Shwartz-Ziv, Yann LeCun
cs.AI

Resumen

Presentamos un marco auto-supervisado de dos etapas que combina la Arquitectura Predictiva de Incrustación Conjunta (JEPA) con un Mecanismo de Atención de Adaptación de Densidad (DAAM) para aprender representaciones de voz robustas. La Etapa~1 emplea JEPA con DAAM para aprender características de audio semánticas mediante predicción enmascarada en el espacio latente, completamente desacoplada de la reconstrucción de la forma de onda. La Etapa~2 aprovecha estas representaciones para una tokenización eficiente utilizando Cuantización Escalar Finita (FSQ) y un esquema de empaquetamiento de base mixta, seguido de una reconstrucción de forma de onda de alta fidelidad con un decodificador HiFi-GAN. Al integrar una compuerta de adaptación de densidad basada en mezclas gaussianas en el codificador JEPA, el modelo realiza una selección adaptativa de características temporales y descubre una estructura jerárquica del habla a una baja tasa de frames de 2.5~Hz. Los tokens resultantes (47.5 tokens/seg) proporcionan una representación reversible, altamente comprimida y compatible con modelos de lenguaje que es competitiva, y a menudo más eficiente, que los códecs de audio neuronal existentes.
English
We introduce a two-stage self-supervised framework that combines the Joint-Embedding Predictive Architecture (JEPA) with a Density Adaptive Attention Mechanism (DAAM) for learning robust speech representations. Stage~1 uses JEPA with DAAM to learn semantic audio features via masked prediction in latent space, fully decoupled from waveform reconstruction. Stage~2 leverages these representations for efficient tokenization using Finite Scalar Quantization (FSQ) and a mixed-radix packing scheme, followed by high-fidelity waveform reconstruction with a HiFi-GAN decoder. By integrating Gaussian mixture-based density-adaptive gating into the JEPA encoder, the model performs adaptive temporal feature selection and discovers hierarchical speech structure at a low frame rate of 2.5~Hz. The resulting tokens (47.5 tokens/sec) provide a reversible, highly compressed, and language-model-friendly representation that is competitive with, and often more efficient than, existing neural audio codecs.
PDF12December 10, 2025