VLA-JEPA: Verbetering van Vision-Language-Action Model met Latent Wereldmodel

Samenvatting

Het vooraf trainen van Vision-Language-Action (VLA)-beleid op internet-schaal video is aantrekkelijk, maar huidige latent-actie-doelstellingen leren vaak het verkeerde: ze blijven verankerd aan pixelvariaties in plaats van aan actie-relevante toestandsovergangen, waardoor ze kwetsbaar zijn voor verschijningsbias, storende beweging en informatie-lek. Wij introduceren VLA-JEPA, een JEPA-stijl voor-trainingsraamwerk dat deze valkuilen by design omzeilt. Het kernidee is lek-vrije toestandspredictie: een target-encoder produceert latente representaties uit toekomstige frames, terwijl de student-stroom alleen de huidige observatie ziet – toekomstige informatie wordt uitsluitend gebruikt als supervisiedoelen, nooit als invoer. Door in de latente ruimte te voorspellen in plaats van in de pixelruimte, leert VLA-JEPA dynamiekabstracties die robuust zijn voor camerabeweging en irrelevante achtergrondveranderingen. Dit levert een eenvoudig tweefasenrecept op – JEPA voor-training gevolgd door fine-tuning van de actie-kop – zonder de meervoudige complexiteit van eerdere latent-actie-pipelines. Experimenten op LIBERO, LIBERO-Plus, SimplerEnv en real-world manipulatietaken tonen aan dat VLA-JEPA consistente winst behaalt in generalisatie en robuustheid ten opzichte van bestaande methoden.

English

Pretraining Vision-Language-Action (VLA) policies on internet-scale video is appealing, yet current latent-action objectives often learn the wrong thing: they remain anchored to pixel variation rather than action-relevant state transitions, making them vulnerable to appearance bias, nuisance motion, and information leakage. We introduce VLA-JEPA, a JEPA-style pretraining framework that sidesteps these pitfalls by design. The key idea is leakage-free state prediction: a target encoder produces latent representations from future frames, while the student pathway sees only the current observation -- future information is used solely as supervision targets, never as input. By predicting in latent space rather than pixel space, VLA-JEPA learns dynamics abstractions that are robust to camera motion and irrelevant background changes. This yields a simple two-stage recipe -- JEPA pretraining followed by action-head fine-tuning -- without the multi-stage complexity of prior latent-action pipelines. Experiments on LIBERO, LIBERO-Plus, SimplerEnv and real-world manipulation tasks show that VLA-JEPA achieves consistent gains in generalization and robustness over existing methods.

VLA-JEPA: Verbetering van Vision-Language-Action Model met Latent Wereldmodel

VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

Samenvatting

Support