ChatPaper.aiChatPaper

JEPA как нейронный токенизатор: обучение устойчивых речевых представлений с помощью плотностно-адаптивного внимания

JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention

December 8, 2025
Авторы: Georgios Ioannides, Christos Constantinou, Aman Chadha, Aaron Elkins, Linsey Pang, Ravid Shwartz-Ziv, Yann LeCun
cs.AI

Аннотация

Мы представляем двухэтапную самообучаемую структуру, которая объединяет архитектуру совместного предсказания эмбеддингов (JEPA) с механизмом внимания, адаптивным к плотности (DAAM), для изучения устойчивых речевых представлений. На Этапе~1 используется JEPA с DAAM для изучения семантических аудио-признаков посредством предсказания с маскированием в латентном пространстве, полностью отделенного от реконструкции волновой формы. Этап~2 использует эти представления для эффективной токенизации с применением конечного скалярного квантования (FSQ) и схемы упаковки со смешанным основанием, за которой следует реконструкция волновой формы высокой точности с помощью декодера HiFi-GAN. Благодаря интеграции основанного на гауссовских смесях адаптивного к плотности затвора в кодировщик JEPA, модель выполняет адаптивный временной отбор признаков и обнаруживает иерархическую речевую структуру при низкой частоте кадров 2.5~Гц. Полученные токены (47.5 токенов/сек) обеспечивают обратимое, сильно сжатое и удобное для языкового моделирования представление, которое конкурирует с существующими нейросетевыми аудиокодеками и часто превосходит их по эффективности.
English
We introduce a two-stage self-supervised framework that combines the Joint-Embedding Predictive Architecture (JEPA) with a Density Adaptive Attention Mechanism (DAAM) for learning robust speech representations. Stage~1 uses JEPA with DAAM to learn semantic audio features via masked prediction in latent space, fully decoupled from waveform reconstruction. Stage~2 leverages these representations for efficient tokenization using Finite Scalar Quantization (FSQ) and a mixed-radix packing scheme, followed by high-fidelity waveform reconstruction with a HiFi-GAN decoder. By integrating Gaussian mixture-based density-adaptive gating into the JEPA encoder, the model performs adaptive temporal feature selection and discovers hierarchical speech structure at a low frame rate of 2.5~Hz. The resulting tokens (47.5 tokens/sec) provide a reversible, highly compressed, and language-model-friendly representation that is competitive with, and often more efficient than, existing neural audio codecs.
PDF12December 10, 2025