V-JEPA 2: Modelos de video auto-supervisados permiten la comprensión, predicción y planificación
V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
June 11, 2025
Autores: Mido Assran, Adrien Bardes, David Fan, Quentin Garrido, Russell Howes, Mojtaba, Komeili, Matthew Muckley, Ammar Rizvi, Claire Roberts, Koustuv Sinha, Artem Zholus, Sergio Arnaud, Abha Gejji, Ada Martin, Francois Robert Hogan, Daniel Dugas, Piotr Bojanowski, Vasil Khalidov, Patrick Labatut, Francisco Massa, Marc Szafraniec, Kapil Krishnakumar, Yong Li, Xiaodong Ma, Sarath Chandar, Franziska Meier, Yann LeCun, Michael Rabbat, Nicolas Ballas
cs.AI
Resumen
Un desafío importante para la inteligencia artificial moderna es aprender a comprender el mundo y actuar principalmente mediante la observación. Este artículo explora un enfoque autosupervisado que combina datos de video a escala de internet con una pequeña cantidad de datos de interacción (trayectorias de robots), para desarrollar modelos capaces de comprender, predecir y planificar en el mundo físico. Primero, preentrenamos una arquitectura de predicción de incrustación conjunta sin acciones, V-JEPA 2, en un conjunto de datos de video e imágenes que comprende más de 1 millón de horas de video de internet. V-JEPA 2 logra un rendimiento sólido en la comprensión del movimiento (77.3 de precisión top-1 en Something-Something v2) y un rendimiento de vanguardia en la anticipación de acciones humanas (39.7 de recuperación a 5 en Epic-Kitchens-100), superando modelos anteriores específicos para tareas. Además, después de alinear V-JEPA 2 con un modelo de lenguaje grande, demostramos un rendimiento de vanguardia en múltiples tareas de respuesta a preguntas sobre video a escala de 8 mil millones de parámetros (por ejemplo, 84.0 en PerceptionTest, 76.9 en TempCompass). Finalmente, mostramos cómo el aprendizaje autosupervisado puede aplicarse a tareas de planificación robótica mediante el posentrenamiento de un modelo del mundo condicionado por acciones latentes, V-JEPA 2-AC, utilizando menos de 62 horas de videos de robots sin etiquetar del conjunto de datos Droid. Implementamos V-JEPA 2-AC de manera inmediata en brazos Franka en dos laboratorios diferentes y habilitamos la recogida y colocación de objetos utilizando planificación con objetivos de imagen. Notablemente, esto se logra sin recopilar ningún dato de los robots en estos entornos, y sin ningún entrenamiento o recompensa específica para la tarea. Este trabajo demuestra cómo el aprendizaje autosupervisado a partir de datos a escala web y una pequeña cantidad de datos de interacción robótica puede producir un modelo del mundo capaz de planificar en el mundo físico.
English
A major challenge for modern AI is to learn to understand the world and learn
to act largely by observation. This paper explores a self-supervised approach
that combines internet-scale video data with a small amount of interaction data
(robot trajectories), to develop models capable of understanding, predicting,
and planning in the physical world. We first pre-train an action-free
joint-embedding-predictive architecture, V-JEPA 2, on a video and image dataset
comprising over 1 million hours of internet video. V-JEPA 2 achieves strong
performance on motion understanding (77.3 top-1 accuracy on Something-Something
v2) and state-of-the-art performance on human action anticipation (39.7
recall-at-5 on Epic-Kitchens-100) surpassing previous task-specific models.
Additionally, after aligning V-JEPA 2 with a large language model, we
demonstrate state-of-the-art performance on multiple video question-answering
tasks at the 8 billion parameter scale (e.g., 84.0 on PerceptionTest, 76.9 on
TempCompass). Finally, we show how self-supervised learning can be applied to
robotic planning tasks by post-training a latent action-conditioned world
model, V-JEPA 2-AC, using less than 62 hours of unlabeled robot videos from the
Droid dataset. We deploy V-JEPA 2-AC zero-shot on Franka arms in two different
labs and enable picking and placing of objects using planning with image goals.
Notably, this is achieved without collecting any data from the robots in these
environments, and without any task-specific training or reward. This work
demonstrates how self-supervised learning from web-scale data and a small
amount of robot interaction data can yield a world model capable of planning in
the physical world.