VLA-JEPA: Улучшение модели «зрение-язык-действие» с помощью латентной модели мира
VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model
February 10, 2026
Авторы: Jingwen Sun, Wenyao Zhang, Zekun Qi, Shaojie Ren, Zezhi Liu, Hanxin Zhu, Guangzhong Sun, Xin Jin, Zhibo Chen
cs.AI
Аннотация
Предобучение политик Vision-Language-Action (VLA) на видео интернет-масштаба является перспективным направлением, однако современные целевые функции для латентных действий часто усваивают неверные зависимости: они остаются привязанными к вариациям пикселей, а не к переходам между состояниями, релевантными действиям, что делает их уязвимыми к смещению, связанному с внешним видом, паразитному движению и утечке информации. Мы представляем VLA-JEPA, архитектуру предобучения в стиле JEPA, которая по своей конструкции избегает этих недостатков. Ключевая идея — предсказание состояния без утечек: целевой энкодер производит латентные представления из будущих кадров, в то время как студенческий путь видит только текущее наблюдение — будущая информация используется исключительно в качестве целей для обучения, но никогда в качестве входных данных. Благодаря предсказанию в латентном пространстве, а не в пространстве пикселей, VLA-JEPA изучает абстракции динамики, которые устойчивы к движению камеры и нерелевантным изменениям фона. Это дает простой двухэтапный рецепт — предобучение по методологии JEPA с последующим дообучением головы для прогнозирования действий — без многоэтапной сложности предыдущих конвейеров для латентных действий. Эксперименты на LIBERO, LIBERO-Plus, SimplerEnv и задачах манипулирования в реальном мире показывают, что VLA-JEPA обеспечивает стабильное улучшение обобщающей способности и устойчивости по сравнению с существующими методами.
English
Pretraining Vision-Language-Action (VLA) policies on internet-scale video is appealing, yet current latent-action objectives often learn the wrong thing: they remain anchored to pixel variation rather than action-relevant state transitions, making them vulnerable to appearance bias, nuisance motion, and information leakage. We introduce VLA-JEPA, a JEPA-style pretraining framework that sidesteps these pitfalls by design. The key idea is leakage-free state prediction: a target encoder produces latent representations from future frames, while the student pathway sees only the current observation -- future information is used solely as supervision targets, never as input. By predicting in latent space rather than pixel space, VLA-JEPA learns dynamics abstractions that are robust to camera motion and irrelevant background changes. This yields a simple two-stage recipe -- JEPA pretraining followed by action-head fine-tuning -- without the multi-stage complexity of prior latent-action pipelines. Experiments on LIBERO, LIBERO-Plus, SimplerEnv and real-world manipulation tasks show that VLA-JEPA achieves consistent gains in generalization and robustness over existing methods.