VLA-JEPA: 潜在世界モデルによる視覚言語行動モデルの拡張
VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model
February 10, 2026
著者: Jingwen Sun, Wenyao Zhang, Zekun Qi, Shaojie Ren, Zezhi Liu, Hanxin Zhu, Guangzhong Sun, Xin Jin, Zhibo Chen
cs.AI
要旨
インターネット規模のビデオデータを用いた視覚-言語-行動(VLA)ポリシーの事前学習は魅力的なアプローチであるが、現在の潜在行動目的関数は誤った概念を学習しがちである。それらは行動に関連する状態遷移ではなく、画素の変動に縛られており、外観バイアス、無意味な動き、情報漏洩の影響を受けやすい。本論文では、これらの欠点を設計段階で回避するJEPAスタイルの事前学習フレームワーク「VLA-JEPA」を提案する。中核となる概念は、漏洩のない状態予測である。ターゲットエンコーダが未来フレームから潜在表現を生成する一方、学生パスは現在の観測のみを入力とする。未来情報は入力としてではなく、監督ターゲットとしてのみ利用される。画素空間ではなく潜在空間で予測を行うことで、VLA-JEPAはカメラ動作や無関係な背景変化に対して頑健なダイナミクスの抽象化を学習する。これにより、従来の潜在行動パイプラインのような複数段階の複雑さを伴わない、JEPA事前学習と行動ヘッドのファインチューニングから成るシンプルな2段階の手法が実現する。LIBERO、LIBERO-Plus、SimplerEnvおよび実世界のマニピュレーションタスクにおける実験により、VLA-JEPAが既存手法を上回る一般化性能と頑健性を一貫して達成することが示された。
English
Pretraining Vision-Language-Action (VLA) policies on internet-scale video is appealing, yet current latent-action objectives often learn the wrong thing: they remain anchored to pixel variation rather than action-relevant state transitions, making them vulnerable to appearance bias, nuisance motion, and information leakage. We introduce VLA-JEPA, a JEPA-style pretraining framework that sidesteps these pitfalls by design. The key idea is leakage-free state prediction: a target encoder produces latent representations from future frames, while the student pathway sees only the current observation -- future information is used solely as supervision targets, never as input. By predicting in latent space rather than pixel space, VLA-JEPA learns dynamics abstractions that are robust to camera motion and irrelevant background changes. This yields a simple two-stage recipe -- JEPA pretraining followed by action-head fine-tuning -- without the multi-stage complexity of prior latent-action pipelines. Experiments on LIBERO, LIBERO-Plus, SimplerEnv and real-world manipulation tasks show that VLA-JEPA achieves consistent gains in generalization and robustness over existing methods.