V-JEPA 2: Zelfgesuperviseerde videomodellen maken begrip, voorspelling en planning mogelijk
V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
June 11, 2025
Auteurs: Mido Assran, Adrien Bardes, David Fan, Quentin Garrido, Russell Howes, Mojtaba, Komeili, Matthew Muckley, Ammar Rizvi, Claire Roberts, Koustuv Sinha, Artem Zholus, Sergio Arnaud, Abha Gejji, Ada Martin, Francois Robert Hogan, Daniel Dugas, Piotr Bojanowski, Vasil Khalidov, Patrick Labatut, Francisco Massa, Marc Szafraniec, Kapil Krishnakumar, Yong Li, Xiaodong Ma, Sarath Chandar, Franziska Meier, Yann LeCun, Michael Rabbat, Nicolas Ballas
cs.AI
Samenvatting
Een grote uitdaging voor moderne AI is het leren begrijpen van de wereld en het leren handelen voornamelijk door observatie. Dit artikel onderzoekt een zelfgesuperviseerde aanpak die internet-schaal videogegevens combineert met een kleine hoeveelheid interactiegegevens (robot trajecten), om modellen te ontwikkelen die in staat zijn tot begrip, voorspelling en planning in de fysieke wereld. We pre-trainen eerst een actievrije joint-embedding-predictieve architectuur, V-JEPA 2, op een video- en beelddataset bestaande uit meer dan 1 miljoen uur aan internetvideo. V-JEPA 2 behaalt sterke prestaties op het gebied van bewegingbegrip (77,3 top-1 nauwkeurigheid op Something-Something v2) en state-of-the-art prestaties op het anticiperen van menselijke handelingen (39,7 recall-at-5 op Epic-Kitchens-100), waarmee het eerdere taakspecifieke modellen overtreft. Daarnaast tonen we, na het uitlijnen van V-JEPA 2 met een groot taalmodel, state-of-the-art prestaties op meerdere video-vraag-antwoordtaken op de schaal van 8 miljard parameters (bijv. 84,0 op PerceptionTest, 76,9 op TempCompass). Tot slot laten we zien hoe zelfgesuperviseerd leren kan worden toegepast op robotplanningstaken door een latent actie-geconditioneerd wereldmodel, V-JEPA 2-AC, post-trainen met minder dan 62 uur aan ongelabelde robotvideo's uit de Droid-dataset. We implementeren V-JEPA 2-AC zero-shot op Franka-armen in twee verschillende labs en maken het oppakken en neerzetten van objecten mogelijk met behulp van planning met beelddoelen. Opmerkelijk is dat dit wordt bereikt zonder gegevens te verzamelen van de robots in deze omgevingen, en zonder taakspecifieke training of beloning. Dit werk toont aan hoe zelfgesuperviseerd leren van web-schaal gegevens en een kleine hoeveelheid robotinteractiegegevens een wereldmodel kan opleveren dat in staat is tot planning in de fysieke wereld.
English
A major challenge for modern AI is to learn to understand the world and learn
to act largely by observation. This paper explores a self-supervised approach
that combines internet-scale video data with a small amount of interaction data
(robot trajectories), to develop models capable of understanding, predicting,
and planning in the physical world. We first pre-train an action-free
joint-embedding-predictive architecture, V-JEPA 2, on a video and image dataset
comprising over 1 million hours of internet video. V-JEPA 2 achieves strong
performance on motion understanding (77.3 top-1 accuracy on Something-Something
v2) and state-of-the-art performance on human action anticipation (39.7
recall-at-5 on Epic-Kitchens-100) surpassing previous task-specific models.
Additionally, after aligning V-JEPA 2 with a large language model, we
demonstrate state-of-the-art performance on multiple video question-answering
tasks at the 8 billion parameter scale (e.g., 84.0 on PerceptionTest, 76.9 on
TempCompass). Finally, we show how self-supervised learning can be applied to
robotic planning tasks by post-training a latent action-conditioned world
model, V-JEPA 2-AC, using less than 62 hours of unlabeled robot videos from the
Droid dataset. We deploy V-JEPA 2-AC zero-shot on Franka arms in two different
labs and enable picking and placing of objects using planning with image goals.
Notably, this is achieved without collecting any data from the robots in these
environments, and without any task-specific training or reward. This work
demonstrates how self-supervised learning from web-scale data and a small
amount of robot interaction data can yield a world model capable of planning in
the physical world.