VLA-JEPA: Aprimorando o Modelo Visão-Linguagem-Ação com um Modelo de Mundo Latente

Resumo

A pré-treinamento de políticas Visão-Linguagem-Ação (VLA) em vídeos de escala da internet é atraente, no entanto, os objetivos atuais de ação latente frequentemente aprendem o conceito errado: eles permanecem ancorados à variação de pixels em vez de transições de estado relevantes para a ação, tornando-os vulneráveis a viés de aparência, movimento de fundo irrelevante e vazamento de informação. Apresentamos o VLA-JEPA, uma estrutura de pré-treinamento no estilo JEPA que evita essas armadilhas por design. A ideia central é a previsão de estado livre de vazamento: um codificador alvo produz representações latentes a partir de quadros futuros, enquanto o caminho do estudante vê apenas a observação atual – a informação futura é usada apenas como supervisão de destino, nunca como entrada. Ao prever no espaço latente em vez do espaço de pixels, o VLA-JEPA apreende abstrações de dinâmica que são robustas ao movimento da câmera e a mudanças irrelevantes no fundo. Isso resulta em uma receita simples de dois estágios – pré-treinamento JEPA seguido de ajuste fino do cabeçalho de ação – sem a complexidade multiestágio dos *pipelines* de ação latente anteriores. Experimentos no LIBERO, LIBERO-Plus, SimplerEnv e em tarefas de manipulação do mundo real mostram que o VLA-JEPA alcança ganhos consistentes em generalização e robustez em relação aos métodos existentes.

English

Pretraining Vision-Language-Action (VLA) policies on internet-scale video is appealing, yet current latent-action objectives often learn the wrong thing: they remain anchored to pixel variation rather than action-relevant state transitions, making them vulnerable to appearance bias, nuisance motion, and information leakage. We introduce VLA-JEPA, a JEPA-style pretraining framework that sidesteps these pitfalls by design. The key idea is leakage-free state prediction: a target encoder produces latent representations from future frames, while the student pathway sees only the current observation -- future information is used solely as supervision targets, never as input. By predicting in latent space rather than pixel space, VLA-JEPA learns dynamics abstractions that are robust to camera motion and irrelevant background changes. This yields a simple two-stage recipe -- JEPA pretraining followed by action-head fine-tuning -- without the multi-stage complexity of prior latent-action pipelines. Experiments on LIBERO, LIBERO-Plus, SimplerEnv and real-world manipulation tasks show that VLA-JEPA achieves consistent gains in generalization and robustness over existing methods.

VLA-JEPA: Aprimorando o Modelo Visão-Linguagem-Ação com um Modelo de Mundo Latente

VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

Resumo

Support