Repenser JEPA : Apprentissage auto-supervisé vidéo économe en calcul avec des enseignants figés
Rethinking JEPA: Compute-Efficient Video SSL with Frozen Teachers
September 29, 2025
papers.authors: Xianhang Li, Chen Huang, Chun-Liang Li, Eran Malach, Josh Susskind, Vimal Thilak, Etai Littwin
cs.AI
papers.abstract
Les architectures prédictives à incorporation conjointe vidéo (V-JEPA) apprennent des représentations vidéo généralisables prêtes à l'emploi en prédisant des régions masquées dans l'espace latent à l'aide d'un enseignant mis à jour par moyenne mobile exponentielle (EMA). Bien que l'EMA empêche l'effondrement des représentations, elle complique la sélection de modèles évolutifs et couple les architectures de l'enseignant et de l'élève. Nous revisitons la prédiction dans l'espace latent masqué et montrons qu'un enseignant figé suffit. Concrètement, nous (i) entraînons un encodeur cible avec un objectif simple de reconstruction de pixels sous le masquage V-JEPA, puis (ii) le gelons et entraînons un élève à prédire les latents de l'enseignant sur les régions masquées. Cela conduit à un schéma en deux étapes, non régularisé, que nous appelons SALT (Static-teacher Asymmetric Latent Training). SALT découple l'optimisation en reconstruction de pixels (enseignant) et prédiction de latents masqués (élève), augmentant la transparence, l'efficacité et l'évolutivité tout en préservant la capacité de la représentation à généraliser sous évaluation figée. Empiriquement, nos modèles élèves surpassent les encodeurs V-JEPA 2 récemment proposés sous évaluation de backbone figé sur divers benchmarks. Ils sont également plus optimaux en termes de calcul : à nombre de FLOPs de pré-entraînement équivalent, notre méthode atteint une précision de sondage plus élevée, et ses courbes de mise à l'échelle dominent la frontière de Pareto précision-FLOPs de V-JEPA. Enfin, nous constatons que la qualité de l'élève est remarquablement robuste à la qualité de l'enseignant : des élèves performants émergent même avec des enseignants petits et sous-optimaux. Cela suggère une allocation de budget de calcul qui devrait largement favoriser l'élève. Ces résultats positionnent SALT comme une alternative simple, évolutive et efficace en calcul à l'auto-distillation basée sur l'EMA pour l'apprentissage de représentations vidéo.
English
Video Joint Embedding Predictive Architectures (V-JEPA) learn generalizable
off-the-shelf video representation by predicting masked regions in latent space
with an exponential moving average (EMA)-updated teacher. While EMA prevents
representation collapse, it complicates scalable model selection and couples
teacher and student architectures. We revisit masked-latent prediction and show
that a frozen teacher suffices. Concretely, we (i) train a target encoder with
a simple pixel-reconstruction objective under V-JEPA masking, then (ii) freeze
it and train a student to predict the teacher's latents on masked regions. This
leads to a two-stage, unregularized scheme that we refer to as SALT
(Static-teacher Asymmetric Latent Training). SALT decouples optimization into
pixel reconstruction (teacher) and masked latent prediction (student),
increasing transparency, efficiency, and scalability while preserving the
ability of representation to generalize under frozen evaluation. Empirically,
our student models outperform recently proposed V-JEPA 2 encoders under frozen
backbone evaluation across diverse benchmarks. They are also more
compute-optimal: at matched pretraining FLOPs, our method achieves higher
probing accuracy, and its scaling curves dominate V-JEPA's accuracy-FLOPs
Pareto frontier. Finally, we find that student quality is remarkably robust to
teacher quality: high-performing students emerge even with small, sub-optimal
teachers. This points to a compute budget allocation that should overwhelmingly
favor the student. These results position SALT as a simple, scalable, and
compute-efficient alternative to EMA-based self-distillation for video
representation learning.