V-JEPA 2: Modelli Video Auto-Supervisionati Abilitano Comprensione, Previsione e Pianificazione
V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
June 11, 2025
Autori: Mido Assran, Adrien Bardes, David Fan, Quentin Garrido, Russell Howes, Mojtaba, Komeili, Matthew Muckley, Ammar Rizvi, Claire Roberts, Koustuv Sinha, Artem Zholus, Sergio Arnaud, Abha Gejji, Ada Martin, Francois Robert Hogan, Daniel Dugas, Piotr Bojanowski, Vasil Khalidov, Patrick Labatut, Francisco Massa, Marc Szafraniec, Kapil Krishnakumar, Yong Li, Xiaodong Ma, Sarath Chandar, Franziska Meier, Yann LeCun, Michael Rabbat, Nicolas Ballas
cs.AI
Abstract
Una delle principali sfide per l'IA moderna è imparare a comprendere il mondo e ad agire principalmente attraverso l'osservazione. Questo articolo esplora un approccio auto-supervisionato che combina dati video su scala internet con una piccola quantità di dati di interazione (traiettorie di robot), per sviluppare modelli capaci di comprendere, prevedere e pianificare nel mondo fisico. Inizialmente pre-addestriamo un'architettura di previsione congiunta senza azioni, V-JEPA 2, su un dataset di video e immagini che comprende oltre 1 milione di ore di video internet. V-JEPA 2 raggiunge prestazioni elevate nella comprensione del movimento (77,3% di accuratezza top-1 su Something-Something v2) e prestazioni all'avanguardia nell'anticipazione delle azioni umane (39,7% di richiamo-a-5 su Epic-Kitchens-100), superando i precedenti modelli specifici per task. Inoltre, dopo aver allineato V-JEPA 2 con un grande modello linguistico, dimostriamo prestazioni all'avanguardia su molteplici task di risposta a domande basate su video alla scala di 8 miliardi di parametri (ad esempio, 84,0 su PerceptionTest, 76,9 su TempCompass). Infine, mostriamo come l'apprendimento auto-supervisionato possa essere applicato a task di pianificazione robotica post-addestrando un modello del mondo condizionato da azioni latenti, V-JEPA 2-AC, utilizzando meno di 62 ore di video robotici non etichettati dal dataset Droid. Distribuiamo V-JEPA 2-AC in modalità zero-shot su bracci Franka in due laboratori diversi e abilitiamo la presa e il posizionamento di oggetti utilizzando la pianificazione con obiettivi basati su immagini. È importante sottolineare che ciò è stato ottenuto senza raccogliere alcun dato dai robot in questi ambienti, e senza alcun addestramento o ricompensa specifica per il task. Questo lavoro dimostra come l'apprendimento auto-supervisionato da dati su scala web e una piccola quantità di dati di interazione robotica possa produrre un modello del mondo capace di pianificare nel mondo fisico.
English
A major challenge for modern AI is to learn to understand the world and learn
to act largely by observation. This paper explores a self-supervised approach
that combines internet-scale video data with a small amount of interaction data
(robot trajectories), to develop models capable of understanding, predicting,
and planning in the physical world. We first pre-train an action-free
joint-embedding-predictive architecture, V-JEPA 2, on a video and image dataset
comprising over 1 million hours of internet video. V-JEPA 2 achieves strong
performance on motion understanding (77.3 top-1 accuracy on Something-Something
v2) and state-of-the-art performance on human action anticipation (39.7
recall-at-5 on Epic-Kitchens-100) surpassing previous task-specific models.
Additionally, after aligning V-JEPA 2 with a large language model, we
demonstrate state-of-the-art performance on multiple video question-answering
tasks at the 8 billion parameter scale (e.g., 84.0 on PerceptionTest, 76.9 on
TempCompass). Finally, we show how self-supervised learning can be applied to
robotic planning tasks by post-training a latent action-conditioned world
model, V-JEPA 2-AC, using less than 62 hours of unlabeled robot videos from the
Droid dataset. We deploy V-JEPA 2-AC zero-shot on Franka arms in two different
labs and enable picking and placing of objects using planning with image goals.
Notably, this is achieved without collecting any data from the robots in these
environments, and without any task-specific training or reward. This work
demonstrates how self-supervised learning from web-scale data and a small
amount of robot interaction data can yield a world model capable of planning in
the physical world.