VLA-JEPA: Miglioramento del Modello Visione-Linguaggio-Azione con Modello del Mondo Latente

Abstract

L'addestramento preliminare di politiche Visione-Linguaggio-Azione (VLA) su video di scala internet è allettante, tuttavia gli obiettivi ad azione latente attuali spesso apprendono l'aspetto sbagliato: rimangono ancorati alla variazione dei pixel piuttosto che alle transizioni di stato rilevanti per l'azione, rendendoli vulnerabili a bias di apparenza, moto parassita e dispersione di informazioni. Introduciamo VLA-JEPA, un framework di pre-addestramento in stile JEPA che evita per progettazione queste insidie. L'idea chiave è la predizione di stato senza dispersione: un encoder target produce rappresentazioni latenti dai frame futuri, mentre il pathway dello studente vede solo l'osservazione corrente – le informazioni future sono utilizzate esclusivamente come target di supervisione, mai come input. Predicendo nello spazio latente anziché in quello dei pixel, VLA-JEPA apprende astrazioni della dinamica che sono robuste al movimento della telecamera e a cambiamenti di fondo irrilevanti. Ciò produce una ricetta semplice in due fasi – pre-addestramento JEPA seguito da fine-tuning della testa di azione – senza la complessità multi-stadio delle pipeline ad azione latente precedenti. Esperimenti su LIBERO, LIBERO-Plus, SimplerEnv e compiti di manipolazione nel mondo reale mostrano che VLA-JEPA raggiunge miglioramenti consistenti in generalizzazione e robustezza rispetto ai metodi esistenti.

English

Pretraining Vision-Language-Action (VLA) policies on internet-scale video is appealing, yet current latent-action objectives often learn the wrong thing: they remain anchored to pixel variation rather than action-relevant state transitions, making them vulnerable to appearance bias, nuisance motion, and information leakage. We introduce VLA-JEPA, a JEPA-style pretraining framework that sidesteps these pitfalls by design. The key idea is leakage-free state prediction: a target encoder produces latent representations from future frames, while the student pathway sees only the current observation -- future information is used solely as supervision targets, never as input. By predicting in latent space rather than pixel space, VLA-JEPA learns dynamics abstractions that are robust to camera motion and irrelevant background changes. This yields a simple two-stage recipe -- JEPA pretraining followed by action-head fine-tuning -- without the multi-stage complexity of prior latent-action pipelines. Experiments on LIBERO, LIBERO-Plus, SimplerEnv and real-world manipulation tasks show that VLA-JEPA achieves consistent gains in generalization and robustness over existing methods.

VLA-JEPA: Miglioramento del Modello Visione-Linguaggio-Azione con Modello del Mondo Latente

VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

Abstract

Support