ChatPaper.aiChatPaper

VLA-JEPA: 잠재 세계 모델을 통한 비전-언어-행동 모델 향상

VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

February 10, 2026
저자: Jingwen Sun, Wenyao Zhang, Zekun Qi, Shaojie Ren, Zezhi Liu, Hanxin Zhu, Guangzhong Sun, Xin Jin, Zhibo Chen
cs.AI

초록

인터넷 규모의 비디오 데이터로 Vision-Language-Action(VLA) 정책을 사전 학습하는 것은 매력적이지만, 현재의 잠재 행동 목표 함수는 종종 잘못된 것을 학습합니다. 이 방법들은 행동과 관련된 상태 전환이 아닌 픽셀 변화에 기반하여 외관 편향, 불필요한 운동, 정보 누출에 취약합니다. 우리는 이러한 함정을 설계 단계에서 회피하는 JEPA 방식의 사전 학습 프레임워크인 VLA-JEPA를 소개합니다. 핵심 아이디어는 정보 누출이 없는 상태 예측입니다. 타겟 인코더는 미래 프레임에서 잠재 표현을 생성하는 반면, 학생 경로는 현재 관측만을 입력으로 받습니다. 미래 정보는 오직 supervision 타겟으로만 사용되며 입력으로는 절대 사용되지 않습니다. 픽셀 공간이 아닌 잠재 공간에서 예측함으로써, VLA-JEPA는 카메라 운동 및 관련 없는 배경 변화에 강건한 역학 추상화를 학습합니다. 이는 기존 잠재 행동 파이프라인의 다단계 복잡성 없이, JEPA 사전 학습 후 행동 헤드 미세 조정이라는 간단한 2단계 방법을 가능하게 합니다. LIBERO, LIBERO-Plus, SimplerEnv 및 실제 조작 작업에 대한 실험 결과, VLA-JEPA가 기존 방법 대비 일반화 성능과 강건성에서 일관된 성능 향상을 달성함을 보여줍니다.
English
Pretraining Vision-Language-Action (VLA) policies on internet-scale video is appealing, yet current latent-action objectives often learn the wrong thing: they remain anchored to pixel variation rather than action-relevant state transitions, making them vulnerable to appearance bias, nuisance motion, and information leakage. We introduce VLA-JEPA, a JEPA-style pretraining framework that sidesteps these pitfalls by design. The key idea is leakage-free state prediction: a target encoder produces latent representations from future frames, while the student pathway sees only the current observation -- future information is used solely as supervision targets, never as input. By predicting in latent space rather than pixel space, VLA-JEPA learns dynamics abstractions that are robust to camera motion and irrelevant background changes. This yields a simple two-stage recipe -- JEPA pretraining followed by action-head fine-tuning -- without the multi-stage complexity of prior latent-action pipelines. Experiments on LIBERO, LIBERO-Plus, SimplerEnv and real-world manipulation tasks show that VLA-JEPA achieves consistent gains in generalization and robustness over existing methods.
PDF120February 12, 2026