V-JEPA 2.1 : Libération des caractéristiques denses dans l'apprentissage auto-supervisé vidéo

Résumé

Nous présentons V-JEPA 2.1, une famille de modèles auto-supervisés qui apprennent des représentations visuelles denses et de haute qualité pour les images et les vidéos, tout en conservant une solide compréhension globale de la scène. L'approche combine quatre composants clés. Premièrement, une fonction de perte prédictive dense utilise un objectif basé sur le masquage où les tokens visibles et masqués contribuent tous deux au signal d'apprentissage, favorisant un ancrage spatial et temporel explicite. Deuxièmement, l'auto-supervision profonde applique l'objectif auto-supervisé de manière hiérarchique à travers plusieurs couches intermédiaires de l'encodeur pour améliorer la qualité de la représentation. Troisièmement, des tokenizers multi-modaux permettent un apprentissage unifié sur les images et les vidéos. Enfin, le modèle bénéficie d'une mise à l'échelle efficace à la fois de la capacité du modèle et des données d'apprentissage. Ensemble, ces choix de conception produisent des représentations spatialement structurées, sémantiquement cohérentes et temporellement stables. Empiriquement, V-JEPA 2.1 atteint des performances de pointe sur plusieurs benchmarks exigeants, notamment 7,71 mAP sur Ego4D pour l'anticipation à court terme des interactions avec les objets et 40,8 Recall@5 sur EPIC-KITCHENS pour l'anticipation d'actions de haut niveau, ainsi qu'une amélioration de 20 points du taux de réussite de la préhension robotique par rapport à V-JEPA-2 AC. Le modèle démontre également de solides performances en navigation robotique (5,687 ATE sur TartanDrive), en estimation de la profondeur (0,307 RMSE sur NYUv2 avec une sonde linéaire) et en reconnaissance globale (77,7 sur Something-Something-V2). Ces résultats montrent que V-JEPA 2.1 fait significativement progresser l'état de l'art dans la compréhension visuelle dense et la modélisation du monde.

English

We present V-JEPA 2.1, a family of self-supervised models that learn dense, high-quality visual representations for both images and videos while retaining strong global scene understanding. The approach combines four key components. First, a dense predictive loss uses a masking-based objective in which both visible and masked tokens contribute to the training signal, encouraging explicit spatial and temporal grounding. Second, deep self-supervision applies the self-supervised objective hierarchically across multiple intermediate encoder layers to improve representation quality. Third, multi-modal tokenizers enable unified training across images and videos. Finally, the model benefits from effective scaling in both model capacity and training data. Together, these design choices produce representations that are spatially structured, semantically coherent, and temporally consistent. Empirically, V-JEPA 2.1 achieves state-of-the-art performance on several challenging benchmarks, including 7.71 mAP on Ego4D for short-term object-interaction anticipation and 40.8 Recall@5 on EPIC-KITCHENS for high-level action anticipation, as well as a 20-point improvement in real-robot grasping success rate over V-JEPA-2 AC. The model also demonstrates strong performance in robotic navigation (5.687 ATE on TartanDrive), depth estimation (0.307 RMSE on NYUv2 with a linear probe), and global recognition (77.7 on Something-Something-V2). These results show that V-JEPA 2.1 significantly advances the state of the art in dense visual understanding and world modeling.

V-JEPA 2.1 : Libération des caractéristiques denses dans l'apprentissage auto-supervisé vidéo

V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning

Résumé

Support