ChatPaper.aiChatPaper

V-JEPA 2: Selbstüberwachte Videomodelle ermöglichen Verständnis, Vorhersage und Planung

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

June 11, 2025
Autoren: Mido Assran, Adrien Bardes, David Fan, Quentin Garrido, Russell Howes, Mojtaba, Komeili, Matthew Muckley, Ammar Rizvi, Claire Roberts, Koustuv Sinha, Artem Zholus, Sergio Arnaud, Abha Gejji, Ada Martin, Francois Robert Hogan, Daniel Dugas, Piotr Bojanowski, Vasil Khalidov, Patrick Labatut, Francisco Massa, Marc Szafraniec, Kapil Krishnakumar, Yong Li, Xiaodong Ma, Sarath Chandar, Franziska Meier, Yann LeCun, Michael Rabbat, Nicolas Ballas
cs.AI

Zusammenfassung

Eine große Herausforderung für die moderne KI besteht darin, zu lernen, die Welt zu verstehen und weitgehend durch Beobachtung zu handeln. Dieses Papier untersucht einen selbstüberwachten Ansatz, der internetgroße Videodaten mit einer kleinen Menge an Interaktionsdaten (Roboter-Trajektorien) kombiniert, um Modelle zu entwickeln, die in der Lage sind, die physische Welt zu verstehen, vorherzusagen und zu planen. Wir trainieren zunächst eine aktionsfreie Joint-Embedding-Predictive-Architektur, V-JEPA 2, auf einem Video- und Bilddatensatz, der über 1 Million Stunden Internetvideo umfasst. V-JEPA 2 erzielt starke Leistungen im Bereich des Bewegungsverständnisses (77,3 Top-1-Genauigkeit auf Something-Something v2) und state-of-the-art-Leistungen bei der Vorhersage menschlicher Handlungen (39,7 Recall-at-5 auf Epic-Kitchens-100), wobei es bisherige aufgabenspezifische Modelle übertrifft. Darüber hinaus zeigen wir nach der Ausrichtung von V-JEPA 2 mit einem großen Sprachmodell state-of-the-art-Leistungen bei mehreren Video-Frage-Antwort-Aufgaben im 8-Milliarden-Parameter-Maßstab (z. B. 84,0 auf PerceptionTest, 76,9 auf TempCompass). Schließlich zeigen wir, wie selbstüberwachtes Lernen auf Roboter-Planungsaufgaben angewendet werden kann, indem wir ein latentes aktionsbedingtes Weltmodell, V-JEPA 2-AC, mit weniger als 62 Stunden unmarkierter Roboter-Videos aus dem Droid-Datensatz nachtrainieren. Wir setzen V-JEPA 2-AC zero-shot auf Franka-Armen in zwei verschiedenen Laboren ein und ermöglichen das Aufnehmen und Ablegen von Objekten durch Planung mit Bildzielen. Bemerkenswert ist, dass dies erreicht wird, ohne Daten von den Robotern in diesen Umgebungen zu sammeln und ohne aufgabenspezifisches Training oder Belohnungen. Diese Arbeit zeigt, wie selbstüberwachtes Lernen aus internetgroßen Daten und einer kleinen Menge an Roboter-Interaktionsdaten ein Weltmodell hervorbringen kann, das in der Lage ist, in der physischen Welt zu planen.
English
A major challenge for modern AI is to learn to understand the world and learn to act largely by observation. This paper explores a self-supervised approach that combines internet-scale video data with a small amount of interaction data (robot trajectories), to develop models capable of understanding, predicting, and planning in the physical world. We first pre-train an action-free joint-embedding-predictive architecture, V-JEPA 2, on a video and image dataset comprising over 1 million hours of internet video. V-JEPA 2 achieves strong performance on motion understanding (77.3 top-1 accuracy on Something-Something v2) and state-of-the-art performance on human action anticipation (39.7 recall-at-5 on Epic-Kitchens-100) surpassing previous task-specific models. Additionally, after aligning V-JEPA 2 with a large language model, we demonstrate state-of-the-art performance on multiple video question-answering tasks at the 8 billion parameter scale (e.g., 84.0 on PerceptionTest, 76.9 on TempCompass). Finally, we show how self-supervised learning can be applied to robotic planning tasks by post-training a latent action-conditioned world model, V-JEPA 2-AC, using less than 62 hours of unlabeled robot videos from the Droid dataset. We deploy V-JEPA 2-AC zero-shot on Franka arms in two different labs and enable picking and placing of objects using planning with image goals. Notably, this is achieved without collecting any data from the robots in these environments, and without any task-specific training or reward. This work demonstrates how self-supervised learning from web-scale data and a small amount of robot interaction data can yield a world model capable of planning in the physical world.
PDF212June 18, 2025