ChatPaper.aiChatPaper

V-JEPA 2: Zelfgesuperviseerde videomodellen maken begrip, voorspelling en planning mogelijk

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

June 11, 2025
Auteurs: Mido Assran, Adrien Bardes, David Fan, Quentin Garrido, Russell Howes, Mojtaba, Komeili, Matthew Muckley, Ammar Rizvi, Claire Roberts, Koustuv Sinha, Artem Zholus, Sergio Arnaud, Abha Gejji, Ada Martin, Francois Robert Hogan, Daniel Dugas, Piotr Bojanowski, Vasil Khalidov, Patrick Labatut, Francisco Massa, Marc Szafraniec, Kapil Krishnakumar, Yong Li, Xiaodong Ma, Sarath Chandar, Franziska Meier, Yann LeCun, Michael Rabbat, Nicolas Ballas
cs.AI

Samenvatting

Een grote uitdaging voor moderne AI is het leren begrijpen van de wereld en het leren handelen voornamelijk door observatie. Dit artikel onderzoekt een zelfgesuperviseerde aanpak die internet-schaal videogegevens combineert met een kleine hoeveelheid interactiegegevens (robot trajecten), om modellen te ontwikkelen die in staat zijn tot begrip, voorspelling en planning in de fysieke wereld. We pre-trainen eerst een actievrije joint-embedding-predictieve architectuur, V-JEPA 2, op een video- en beelddataset bestaande uit meer dan 1 miljoen uur aan internetvideo. V-JEPA 2 behaalt sterke prestaties op het gebied van bewegingbegrip (77,3 top-1 nauwkeurigheid op Something-Something v2) en state-of-the-art prestaties op het anticiperen van menselijke handelingen (39,7 recall-at-5 op Epic-Kitchens-100), waarmee het eerdere taakspecifieke modellen overtreft. Daarnaast tonen we, na het uitlijnen van V-JEPA 2 met een groot taalmodel, state-of-the-art prestaties op meerdere video-vraag-antwoordtaken op de schaal van 8 miljard parameters (bijv. 84,0 op PerceptionTest, 76,9 op TempCompass). Tot slot laten we zien hoe zelfgesuperviseerd leren kan worden toegepast op robotplanningstaken door een latent actie-geconditioneerd wereldmodel, V-JEPA 2-AC, post-trainen met minder dan 62 uur aan ongelabelde robotvideo's uit de Droid-dataset. We implementeren V-JEPA 2-AC zero-shot op Franka-armen in twee verschillende labs en maken het oppakken en neerzetten van objecten mogelijk met behulp van planning met beelddoelen. Opmerkelijk is dat dit wordt bereikt zonder gegevens te verzamelen van de robots in deze omgevingen, en zonder taakspecifieke training of beloning. Dit werk toont aan hoe zelfgesuperviseerd leren van web-schaal gegevens en een kleine hoeveelheid robotinteractiegegevens een wereldmodel kan opleveren dat in staat is tot planning in de fysieke wereld.
English
A major challenge for modern AI is to learn to understand the world and learn to act largely by observation. This paper explores a self-supervised approach that combines internet-scale video data with a small amount of interaction data (robot trajectories), to develop models capable of understanding, predicting, and planning in the physical world. We first pre-train an action-free joint-embedding-predictive architecture, V-JEPA 2, on a video and image dataset comprising over 1 million hours of internet video. V-JEPA 2 achieves strong performance on motion understanding (77.3 top-1 accuracy on Something-Something v2) and state-of-the-art performance on human action anticipation (39.7 recall-at-5 on Epic-Kitchens-100) surpassing previous task-specific models. Additionally, after aligning V-JEPA 2 with a large language model, we demonstrate state-of-the-art performance on multiple video question-answering tasks at the 8 billion parameter scale (e.g., 84.0 on PerceptionTest, 76.9 on TempCompass). Finally, we show how self-supervised learning can be applied to robotic planning tasks by post-training a latent action-conditioned world model, V-JEPA 2-AC, using less than 62 hours of unlabeled robot videos from the Droid dataset. We deploy V-JEPA 2-AC zero-shot on Franka arms in two different labs and enable picking and placing of objects using planning with image goals. Notably, this is achieved without collecting any data from the robots in these environments, and without any task-specific training or reward. This work demonstrates how self-supervised learning from web-scale data and a small amount of robot interaction data can yield a world model capable of planning in the physical world.
PDF272June 18, 2025