VLA-JEPA: Verbesserung von Vision-Language-Action-Modellen mit latenten Weltmodellen
VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model
February 10, 2026
papers.authors: Jingwen Sun, Wenyao Zhang, Zekun Qi, Shaojie Ren, Zezhi Liu, Hanxin Zhu, Guangzhong Sun, Xin Jin, Zhibo Chen
cs.AI
papers.abstract
Das Pretraining von Vision-Language-Action (VLA)-Policies auf internetweiten Videodaten ist vielversprechend, doch aktuelle Latent-Action-Ansätze lernen häufig das Falsche: sie bleiben an Pixelvariationen anstatt an aktionsrelevanten Zustandsübergängen orientiert, was sie anfällig für Erscheinungsbias, Störbewegungen und Informationslecks macht. Wir stellen VLA-JEPA vor, ein Pretraining-Framework im JEPA-Stil, das diese Fallstricke durch sein Design umgeht. Der Kernansatz ist die leckfreie Zustandsprädiktion: Ein Target-Encoder erzeugt latente Repräsentationen aus zukünftigen Frames, während der Student-Pfad nur die aktuelle Beobachtung sieht – zukünftige Informationen dienen ausschließlich als Supervisionsziele, niemals als Eingabe. Durch die Prädiktion im latenten Raum anstatt im Pixelraum lernt VLA-JEPA Dynamikabstraktionen, die robust gegenüber Kamerabewegungen und irrelevanten Hintergrundveränderungen sind. Dies ergibt ein einfaches Zwei-Stufen-Verfahren – JEPA-Pretraining gefolgt von Fine-tuning des Action-Heads – ohne die mehrstufige Komplexität bisheriger Latent-Action-Pipelines. Experimente auf LIBERO, LIBERO-Plus, SimplerEnv und realen Manipulationsaufgaben zeigen, dass VLA-JEPA durchgängige Verbesserungen in Generalisierung und Robustheit gegenüber bestehenden Methoden erzielt.
English
Pretraining Vision-Language-Action (VLA) policies on internet-scale video is appealing, yet current latent-action objectives often learn the wrong thing: they remain anchored to pixel variation rather than action-relevant state transitions, making them vulnerable to appearance bias, nuisance motion, and information leakage. We introduce VLA-JEPA, a JEPA-style pretraining framework that sidesteps these pitfalls by design. The key idea is leakage-free state prediction: a target encoder produces latent representations from future frames, while the student pathway sees only the current observation -- future information is used solely as supervision targets, never as input. By predicting in latent space rather than pixel space, VLA-JEPA learns dynamics abstractions that are robust to camera motion and irrelevant background changes. This yields a simple two-stage recipe -- JEPA pretraining followed by action-head fine-tuning -- without the multi-stage complexity of prior latent-action pipelines. Experiments on LIBERO, LIBERO-Plus, SimplerEnv and real-world manipulation tasks show that VLA-JEPA achieves consistent gains in generalization and robustness over existing methods.