Causal-JEPA: 객체 수준 잠재 개입을 통한 세계 모델 학습
Causal-JEPA: Learning World Models through Object-Level Latent Interventions
February 11, 2026
저자: Heejeong Nam, Quentin Le Lidec, Lucas Maes, Yann LeCun, Randall Balestriero
cs.AI
초록
세계 모델은 예측, 추론 및 제어를 지원하기 위해 견고한 관계적 이해를 필요로 합니다. 객체 중심 표현이 유용한 추상화를 제공하지만 상호작용 의존적 역동성을 포착하기에는 불충분합니다. 이에 우리는 객체 중심 세계 모델인 C-JEPA를 제안합니다. C-JEPA는 마스킹된 공동 임베딩 예측을 이미지 패치에서 객체 중심 표현으로 확장하는 간단하고 유연한 모델입니다. 객체 수준 마스킹을 적용하여 객체의 상태를 다른 객체로부터 추론하도록 요구함으로써, C-JEPA는 반사실적 효과와 유사한 잠재 개입을 유도하고 단축 해결책을 방지하여 상호작용 추론을 필수적으로 만듭니다. 실험적으로 C-JEPA는 시각 질의응답에서 일관된 성능 향상을 보였으며, 객체 수준 마스킹이 없는 동일 아키텍처 대비 반사실적 추론에서 약 20%의 절대적 개선을 달성했습니다. 에이전트 제어 과제에서 C-JEPA는 패치 기반 세계 모델이 필요로 하는 전체 잠재 입력 특징의 1%만 사용하면서도 비슷한 성능을 달성하여 훨씬 더 효율적인 계획을 가능하게 했습니다. 마지막으로, 객체 수준 마스킹이 잠재 개입을 통해 인과적 귀납 편향을 유도한다는 형식적 분석을 제시합니다. 우리의 코드는 https://github.com/galilai-group/cjepa에서 확인할 수 있습니다.
English
World models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations provide a useful abstraction, they are not sufficient to capture interaction-dependent dynamics. We therefore propose C-JEPA, a simple and flexible object-centric world model that extends masked joint embedding prediction from image patches to object-centric representations. By applying object-level masking that requires an object's state to be inferred from other objects, C-JEPA induces latent interventions with counterfactual-like effects and prevents shortcut solutions, making interaction reasoning essential. Empirically, C-JEPA leads to consistent gains in visual question answering, with an absolute improvement of about 20\% in counterfactual reasoning compared to the same architecture without object-level masking. On agent control tasks, C-JEPA enables substantially more efficient planning by using only 1\% of the total latent input features required by patch-based world models, while achieving comparable performance. Finally, we provide a formal analysis demonstrating that object-level masking induces a causal inductive bias via latent interventions. Our code is available at https://github.com/galilai-group/cjepa.