ChatPaper.aiChatPaper

V-JEPA 2: Самообучаемые видеомодели для понимания, прогнозирования и планирования

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

June 11, 2025
Авторы: Mido Assran, Adrien Bardes, David Fan, Quentin Garrido, Russell Howes, Mojtaba, Komeili, Matthew Muckley, Ammar Rizvi, Claire Roberts, Koustuv Sinha, Artem Zholus, Sergio Arnaud, Abha Gejji, Ada Martin, Francois Robert Hogan, Daniel Dugas, Piotr Bojanowski, Vasil Khalidov, Patrick Labatut, Francisco Massa, Marc Szafraniec, Kapil Krishnakumar, Yong Li, Xiaodong Ma, Sarath Chandar, Franziska Meier, Yann LeCun, Michael Rabbat, Nicolas Ballas
cs.AI

Аннотация

Одной из ключевых задач современного ИИ является обучение пониманию мира и способности действовать преимущественно через наблюдение. В данной работе исследуется подход с самообучением, который сочетает данные интернет-видео в масштабе сети с небольшим объемом данных взаимодействия (траектории роботов) для разработки моделей, способных понимать, предсказывать и планировать в физическом мире. Сначала мы предварительно обучаем архитектуру совместного предсказания вложений без действий, V-JEPA 2, на наборе данных видео и изображений, включающем более 1 миллиона часов интернет-видео. V-JEPA 2 демонстрирует высокую производительность в понимании движения (77,3% точности top-1 на наборе Something-Something v2) и достигает передовых результатов в предсказании человеческих действий (39,7% recall-at-5 на Epic-Kitchens-100), превосходя предыдущие специализированные модели. Кроме того, после интеграции V-JEPA 2 с крупной языковой моделью мы показываем передовые результаты на нескольких задачах ответов на вопросы по видео в масштабе 8 миллиардов параметров (например, 84,0 на PerceptionTest, 76,9 на TempCompass). Наконец, мы демонстрируем, как самообучение может быть применено к задачам планирования в робототехнике, путем дообучения латентной модели мира с условием действий, V-JEPA 2-AC, с использованием менее 62 часов немаркированных видео роботов из набора данных Droid. Мы развертываем V-JEPA 2-AC "с нуля" на манипуляторах Franka в двух различных лабораториях и обеспечиваем захват и перемещение объектов с использованием планирования на основе целевых изображений. Примечательно, что это достигается без сбора каких-либо данных от роботов в этих средах, а также без специализированного обучения или наград. Данная работа демонстрирует, как самообучение на основе данных интернет-масштаба и небольшого объема данных взаимодействия роботов может привести к созданию модели мира, способной планировать в физической среде.
English
A major challenge for modern AI is to learn to understand the world and learn to act largely by observation. This paper explores a self-supervised approach that combines internet-scale video data with a small amount of interaction data (robot trajectories), to develop models capable of understanding, predicting, and planning in the physical world. We first pre-train an action-free joint-embedding-predictive architecture, V-JEPA 2, on a video and image dataset comprising over 1 million hours of internet video. V-JEPA 2 achieves strong performance on motion understanding (77.3 top-1 accuracy on Something-Something v2) and state-of-the-art performance on human action anticipation (39.7 recall-at-5 on Epic-Kitchens-100) surpassing previous task-specific models. Additionally, after aligning V-JEPA 2 with a large language model, we demonstrate state-of-the-art performance on multiple video question-answering tasks at the 8 billion parameter scale (e.g., 84.0 on PerceptionTest, 76.9 on TempCompass). Finally, we show how self-supervised learning can be applied to robotic planning tasks by post-training a latent action-conditioned world model, V-JEPA 2-AC, using less than 62 hours of unlabeled robot videos from the Droid dataset. We deploy V-JEPA 2-AC zero-shot on Franka arms in two different labs and enable picking and placing of objects using planning with image goals. Notably, this is achieved without collecting any data from the robots in these environments, and without any task-specific training or reward. This work demonstrates how self-supervised learning from web-scale data and a small amount of robot interaction data can yield a world model capable of planning in the physical world.
PDF212June 18, 2025