V-JEPA 2: 自己教師あり動画モデルによる理解、予測、計画の実現
V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
June 11, 2025
著者: Mido Assran, Adrien Bardes, David Fan, Quentin Garrido, Russell Howes, Mojtaba, Komeili, Matthew Muckley, Ammar Rizvi, Claire Roberts, Koustuv Sinha, Artem Zholus, Sergio Arnaud, Abha Gejji, Ada Martin, Francois Robert Hogan, Daniel Dugas, Piotr Bojanowski, Vasil Khalidov, Patrick Labatut, Francisco Massa, Marc Szafraniec, Kapil Krishnakumar, Yong Li, Xiaodong Ma, Sarath Chandar, Franziska Meier, Yann LeCun, Michael Rabbat, Nicolas Ballas
cs.AI
要旨
現代のAIにとって大きな課題は、主に観察を通じて世界を理解し、行動することを学ぶことである。本論文では、インターネット規模のビデオデータと少量のインタラクションデータ(ロボット軌跡)を組み合わせ、物理世界における理解、予測、計画が可能なモデルを開発するための自己教師ありアプローチを探求する。まず、100万時間以上のインターネットビデオを含むビデオおよび画像データセットを用いて、アクションフリーの結合埋め込み予測アーキテクチャであるV-JEPA 2を事前学習する。V-JEPA 2は、動きの理解において高い性能(Something-Something v2での77.3トップ1精度)を達成し、人間の行動予測においても最先端の性能(Epic-Kitchens-100での39.7リコールアット5)を示し、従来のタスク特化型モデルを凌駕した。さらに、V-JEPA 2を大規模言語モデルと連携させた後、80億パラメータ規模での複数のビデオ質問応答タスクにおいて最先端の性能(例:PerceptionTestでの84.0、TempCompassでの76.9)を実証した。最後に、自己教師あり学習をロボット計画タスクに適用する方法を示すため、Droidデータセットからの62時間未満のラベルなしロボットビデオを用いて、潜在アクション条件付き世界モデルであるV-JEPA 2-ACを事後学習する。V-JEPA 2-ACをゼロショットで2つの異なるラボのFrankaアームに展開し、画像目標を用いた計画により物体のピッキングとプレースメントを可能にした。特に、これらの環境からロボットのデータを収集せず、タスク特化型のトレーニングや報酬も行わずにこれを達成した。本論文は、ウェブ規模のデータと少量のロボットインタラクションデータからの自己教師あり学習が、物理世界における計画が可能な世界モデルを生み出すことができることを示している。
English
A major challenge for modern AI is to learn to understand the world and learn
to act largely by observation. This paper explores a self-supervised approach
that combines internet-scale video data with a small amount of interaction data
(robot trajectories), to develop models capable of understanding, predicting,
and planning in the physical world. We first pre-train an action-free
joint-embedding-predictive architecture, V-JEPA 2, on a video and image dataset
comprising over 1 million hours of internet video. V-JEPA 2 achieves strong
performance on motion understanding (77.3 top-1 accuracy on Something-Something
v2) and state-of-the-art performance on human action anticipation (39.7
recall-at-5 on Epic-Kitchens-100) surpassing previous task-specific models.
Additionally, after aligning V-JEPA 2 with a large language model, we
demonstrate state-of-the-art performance on multiple video question-answering
tasks at the 8 billion parameter scale (e.g., 84.0 on PerceptionTest, 76.9 on
TempCompass). Finally, we show how self-supervised learning can be applied to
robotic planning tasks by post-training a latent action-conditioned world
model, V-JEPA 2-AC, using less than 62 hours of unlabeled robot videos from the
Droid dataset. We deploy V-JEPA 2-AC zero-shot on Franka arms in two different
labs and enable picking and placing of objects using planning with image goals.
Notably, this is achieved without collecting any data from the robots in these
environments, and without any task-specific training or reward. This work
demonstrates how self-supervised learning from web-scale data and a small
amount of robot interaction data can yield a world model capable of planning in
the physical world.