VLA-JEPA : Amélioration du modèle vision-langage-action avec un modèle du monde latent
VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model
February 10, 2026
papers.authors: Jingwen Sun, Wenyao Zhang, Zekun Qi, Shaojie Ren, Zezhi Liu, Hanxin Zhu, Guangzhong Sun, Xin Jin, Zhibo Chen
cs.AI
papers.abstract
Le pré-entraînement de politiques Vision-Langage-Action (VLA) sur des vidéos à l'échelle d'Internet est séduisant, mais les objectifs courants à actions latentes apprennent souvent la mauvaise chose : ils restent ancrés à la variation des pixels plutôt qu'aux transitions d'état pertinentes pour l'action, les rendant vulnérables au biais d'apparence, au mouvement parasite et à la fuite d'information. Nous présentons VLA-JEPA, un cadre de pré-entraînement de type JEPA qui contourne ces écueils par conception. L'idée clé est la prédiction d'état sans fuite : un encodeur cible produit des représentations latentes à partir des images futures, tandis que la voie étudiée ne voit que l'observation actuelle — les informations futures sont utilisées uniquement comme cibles de supervision, jamais en entrée. En prédisant dans l'espace latent plutôt que dans l'espace pixel, VLA-JEPA apprend des abstractions de la dynamique qui sont robustes aux mouvements de la caméra et aux changements d'arrière-plan non pertinents. Cela donne une recette simple en deux étapes — pré-entraînement JEPA suivi d'un réglage fin avec une tête d'action — sans la complexité multi-étapes des pipelines à actions latentes antérieurs. Les expériences sur LIBERO, LIBERO-Plus, SimplerEnv et des tâches de manipulation en monde réel montrent que VLA-JEPA obtient des gains constants en généralisation et en robustesse par rapport aux méthodes existantes.
English
Pretraining Vision-Language-Action (VLA) policies on internet-scale video is appealing, yet current latent-action objectives often learn the wrong thing: they remain anchored to pixel variation rather than action-relevant state transitions, making them vulnerable to appearance bias, nuisance motion, and information leakage. We introduce VLA-JEPA, a JEPA-style pretraining framework that sidesteps these pitfalls by design. The key idea is leakage-free state prediction: a target encoder produces latent representations from future frames, while the student pathway sees only the current observation -- future information is used solely as supervision targets, never as input. By predicting in latent space rather than pixel space, VLA-JEPA learns dynamics abstractions that are robust to camera motion and irrelevant background changes. This yields a simple two-stage recipe -- JEPA pretraining followed by action-head fine-tuning -- without the multi-stage complexity of prior latent-action pipelines. Experiments on LIBERO, LIBERO-Plus, SimplerEnv and real-world manipulation tasks show that VLA-JEPA achieves consistent gains in generalization and robustness over existing methods.