ChatPaper.aiChatPaper

V-JEPA 2 : Les modèles vidéo auto-supervisés permettent la compréhension, la prédiction et la planification

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

June 11, 2025
Auteurs: Mido Assran, Adrien Bardes, David Fan, Quentin Garrido, Russell Howes, Mojtaba, Komeili, Matthew Muckley, Ammar Rizvi, Claire Roberts, Koustuv Sinha, Artem Zholus, Sergio Arnaud, Abha Gejji, Ada Martin, Francois Robert Hogan, Daniel Dugas, Piotr Bojanowski, Vasil Khalidov, Patrick Labatut, Francisco Massa, Marc Szafraniec, Kapil Krishnakumar, Yong Li, Xiaodong Ma, Sarath Chandar, Franziska Meier, Yann LeCun, Michael Rabbat, Nicolas Ballas
cs.AI

Résumé

Un défi majeur pour l'IA moderne est d'apprendre à comprendre le monde et à agir principalement par observation. Cet article explore une approche auto-supervisée qui combine des données vidéo à l'échelle d'Internet avec une petite quantité de données d'interaction (trajectoires de robots), afin de développer des modèles capables de comprendre, prédire et planifier dans le monde physique. Nous pré-entraînons d'abord une architecture de prédiction par co-embeddings sans action, V-JEPA 2, sur un ensemble de données vidéo et images comprenant plus d'un million d'heures de vidéos Internet. V-JEPA 2 obtient des performances solides en compréhension du mouvement (77,3 de précision top-1 sur Something-Something v2) et des performances de pointe en anticipation des actions humaines (39,7 de rappel à 5 sur Epic-Kitchens-100), surpassant les modèles spécifiques à la tâche précédents. De plus, après avoir aligné V-JEPA 2 avec un grand modèle de langage, nous démontrons des performances de pointe sur plusieurs tâches de question-réponse vidéo à l'échelle de 8 milliards de paramètres (par exemple, 84,0 sur PerceptionTest, 76,9 sur TempCompass). Enfin, nous montrons comment l'apprentissage auto-supervisé peut être appliqué à des tâches de planification robotique en post-entraînant un modèle du monde conditionné par des actions latentes, V-JEPA 2-AC, en utilisant moins de 62 heures de vidéos de robots non étiquetées provenant du jeu de données Droid. Nous déployons V-JEPA 2-AC en zero-shot sur des bras Franka dans deux laboratoires différents et permettons la saisie et le placement d'objets en utilisant la planification avec des objectifs d'image. Notamment, cela est réalisé sans collecter aucune donnée des robots dans ces environnements, et sans aucun entraînement ou récompense spécifique à la tâche. Ce travail démontre comment l'apprentissage auto-supervisé à partir de données à l'échelle du web et d'une petite quantité de données d'interaction robotique peut produire un modèle du monde capable de planifier dans le monde physique.
English
A major challenge for modern AI is to learn to understand the world and learn to act largely by observation. This paper explores a self-supervised approach that combines internet-scale video data with a small amount of interaction data (robot trajectories), to develop models capable of understanding, predicting, and planning in the physical world. We first pre-train an action-free joint-embedding-predictive architecture, V-JEPA 2, on a video and image dataset comprising over 1 million hours of internet video. V-JEPA 2 achieves strong performance on motion understanding (77.3 top-1 accuracy on Something-Something v2) and state-of-the-art performance on human action anticipation (39.7 recall-at-5 on Epic-Kitchens-100) surpassing previous task-specific models. Additionally, after aligning V-JEPA 2 with a large language model, we demonstrate state-of-the-art performance on multiple video question-answering tasks at the 8 billion parameter scale (e.g., 84.0 on PerceptionTest, 76.9 on TempCompass). Finally, we show how self-supervised learning can be applied to robotic planning tasks by post-training a latent action-conditioned world model, V-JEPA 2-AC, using less than 62 hours of unlabeled robot videos from the Droid dataset. We deploy V-JEPA 2-AC zero-shot on Franka arms in two different labs and enable picking and placing of objects using planning with image goals. Notably, this is achieved without collecting any data from the robots in these environments, and without any task-specific training or reward. This work demonstrates how self-supervised learning from web-scale data and a small amount of robot interaction data can yield a world model capable of planning in the physical world.
PDF212June 18, 2025