VLA-JEPA: Mejora del Modelo Visión-Lenguaje-Acción con un Modelo del Mundo Latente
VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model
February 10, 2026
Autores: Jingwen Sun, Wenyao Zhang, Zekun Qi, Shaojie Ren, Zezhi Liu, Hanxin Zhu, Guangzhong Sun, Xin Jin, Zhibo Chen
cs.AI
Resumen
El preentrenamiento de políticas Visión-Lenguaje-Acción (VLA) en vídeos a escala de internet es atractivo, pero los objetivos actuales de acción latente a menudo aprenden lo incorrecto: permanecen anclados a la variación de píxeles en lugar de a las transiciones de estado relevantes para la acción, lo que los hace vulnerables al sesgo de apariencia, al movimiento superfluo y a la fuga de información. Presentamos VLA-JEPA, un marco de preentrenamiento al estilo JEPA que evita estos problemas por diseño. La idea clave es la predicción de estado libre de fugas: un codificador objetivo produce representaciones latentes a partir de fotogramas futuros, mientras que la vía del estudiante solo ve la observación actual; la información futura se utiliza únicamente como objetivo de supervisión, nunca como entrada. Al predecir en el espacio latente en lugar del espacio de píxeles, VLA-JEPA aprende abstracciones de dinámicas que son robustas al movimiento de la cámara y a cambios irrelevantes en el fondo. Esto produce una receta simple de dos etapas —preentrenamiento JEPA seguido de ajuste fino de la cabeza de acción— sin la complejidad multi-etapa de las canalizaciones de acción latente anteriores. Los experimentos en LIBERO, LIBERO-Plus, SimplerEnv y tareas de manipulación en el mundo real muestran que VLA-JEPA logra ganancias consistentes en generalización y robustez sobre los métodos existentes.
English
Pretraining Vision-Language-Action (VLA) policies on internet-scale video is appealing, yet current latent-action objectives often learn the wrong thing: they remain anchored to pixel variation rather than action-relevant state transitions, making them vulnerable to appearance bias, nuisance motion, and information leakage. We introduce VLA-JEPA, a JEPA-style pretraining framework that sidesteps these pitfalls by design. The key idea is leakage-free state prediction: a target encoder produces latent representations from future frames, while the student pathway sees only the current observation -- future information is used solely as supervision targets, never as input. By predicting in latent space rather than pixel space, VLA-JEPA learns dynamics abstractions that are robust to camera motion and irrelevant background changes. This yields a simple two-stage recipe -- JEPA pretraining followed by action-head fine-tuning -- without the multi-stage complexity of prior latent-action pipelines. Experiments on LIBERO, LIBERO-Plus, SimplerEnv and real-world manipulation tasks show that VLA-JEPA achieves consistent gains in generalization and robustness over existing methods.