JEPA를 신경 토크나이저로: 밀도 적응형 어텐션을 통한 강건한 음성 표현 학습
JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention
December 8, 2025
저자: Georgios Ioannides, Christos Constantinou, Aman Chadha, Aaron Elkins, Linsey Pang, Ravid Shwartz-Ziv, Yann LeCun
cs.AI
초록
강건한 음성 표현 학습을 위해 Joint-Embedding Predictive Architecture(JEPA)와 Density Adaptive Attention Mechanism(DAAM)을 결합한 2단계 자기 지도 프레임워크를 소개한다. 1단계에서는 JEPA와 DAAM을 활용하여 잠재 공간 내 마스킹 예측을 통해 파형 재구성과 완전히 분리된 의미론적 오디오 특징을 학습한다. 2단계에서는 이러한 표현을 바탕으로 Finite Scalar Quantization(FSQ)과 혼합 기수 패킹 방식을 사용한 효율적인 토큰화를 수행한 후, HiFi-GAN 디코더를 통한 고품질 파형 재구성을 수행한다. JEPA 인코더에 가우시안 혼합 모델 기반의 밀도 적응 게이팅을 통합함으로써, 모델은 적응형 시계열 특징 선택을 수행하고 2.5Hz의 낮은 프레임 레이트에서 계층적 음성 구조를 발견한다. 그 결과 생성되는 토큰(초당 47.5 토큰)은 기존 신경망 오디오 코덱과 비교하여 경쟁력 있으면서도 종종 더 효율적인, 가역적이며 높은 압축률을 가지며 언어 모델에 친화적인 표현을 제공한다.
English
We introduce a two-stage self-supervised framework that combines the Joint-Embedding Predictive Architecture (JEPA) with a Density Adaptive Attention Mechanism (DAAM) for learning robust speech representations. Stage~1 uses JEPA with DAAM to learn semantic audio features via masked prediction in latent space, fully decoupled from waveform reconstruction. Stage~2 leverages these representations for efficient tokenization using Finite Scalar Quantization (FSQ) and a mixed-radix packing scheme, followed by high-fidelity waveform reconstruction with a HiFi-GAN decoder. By integrating Gaussian mixture-based density-adaptive gating into the JEPA encoder, the model performs adaptive temporal feature selection and discovers hierarchical speech structure at a low frame rate of 2.5~Hz. The resulting tokens (47.5 tokens/sec) provide a reversible, highly compressed, and language-model-friendly representation that is competitive with, and often more efficient than, existing neural audio codecs.