Ripensare JEPA: Apprendimento Auto-Supervisionato Efficiente per Video con Insegnanti Congelati
Rethinking JEPA: Compute-Efficient Video SSL with Frozen Teachers
September 29, 2025
Autori: Xianhang Li, Chen Huang, Chun-Liang Li, Eran Malach, Josh Susskind, Vimal Thilak, Etai Littwin
cs.AI
Abstract
Le architetture predittive di incorporamento congiunto per video (V-JEPA) apprendono rappresentazioni video generalizzabili e pronte all'uso prevedendo regioni mascherate nello spazio latente con un insegnante aggiornato tramite media mobile esponenziale (EMA). Sebbene l'EMA prevenga il collasso della rappresentazione, complica la selezione scalabile del modello e accoppia le architetture dell'insegnante e dello studente. Riconsideriamo la predizione nello spazio latente mascherato e dimostriamo che un insegnante congelato è sufficiente. Nello specifico, (i) addestriamo un encoder target con un semplice obiettivo di ricostruzione dei pixel sotto il mascheramento V-JEPA, quindi (ii) lo congeliamo e addestriamo uno studente a prevedere i latenti dell'insegnante sulle regioni mascherate. Questo porta a uno schema in due fasi e non regolarizzato che chiamiamo SALT (Static-teacher Asymmetric Latent Training). SALT disaccoppia l'ottimizzazione in ricostruzione dei pixel (insegnante) e predizione dei latenti mascherati (studente), aumentando trasparenza, efficienza e scalabilità preservando la capacità della rappresentazione di generalizzare sotto valutazione congelata. Empiricamente, i nostri modelli studente superano i recenti encoder V-JEPA 2 sotto valutazione con backbone congelato su diversi benchmark. Sono anche più ottimali in termini di calcolo: a parità di FLOP di pre-addestramento, il nostro metodo raggiunge una maggiore accuratezza di probing, e le sue curve di scalabilità dominano la frontiera Pareto accuratezza-FLOP di V-JEPA. Infine, scopriamo che la qualità dello studente è notevolmente robusta rispetto alla qualità dell'insegnante: studenti ad alte prestazioni emergono anche con insegnanti piccoli e sub-ottimali. Questo suggerisce un'allocazione del budget computazionale che dovrebbe favorire in modo schiacciante lo studente. Questi risultati posizionano SALT come un'alternativa semplice, scalabile e computazionalmente efficiente all'auto-distillazione basata su EMA per l'apprendimento di rappresentazioni video.
English
Video Joint Embedding Predictive Architectures (V-JEPA) learn generalizable
off-the-shelf video representation by predicting masked regions in latent space
with an exponential moving average (EMA)-updated teacher. While EMA prevents
representation collapse, it complicates scalable model selection and couples
teacher and student architectures. We revisit masked-latent prediction and show
that a frozen teacher suffices. Concretely, we (i) train a target encoder with
a simple pixel-reconstruction objective under V-JEPA masking, then (ii) freeze
it and train a student to predict the teacher's latents on masked regions. This
leads to a two-stage, unregularized scheme that we refer to as SALT
(Static-teacher Asymmetric Latent Training). SALT decouples optimization into
pixel reconstruction (teacher) and masked latent prediction (student),
increasing transparency, efficiency, and scalability while preserving the
ability of representation to generalize under frozen evaluation. Empirically,
our student models outperform recently proposed V-JEPA 2 encoders under frozen
backbone evaluation across diverse benchmarks. They are also more
compute-optimal: at matched pretraining FLOPs, our method achieves higher
probing accuracy, and its scaling curves dominate V-JEPA's accuracy-FLOPs
Pareto frontier. Finally, we find that student quality is remarkably robust to
teacher quality: high-performing students emerge even with small, sub-optimal
teachers. This points to a compute budget allocation that should overwhelmingly
favor the student. These results position SALT as a simple, scalable, and
compute-efficient alternative to EMA-based self-distillation for video
representation learning.