ChatPaper.aiChatPaper

Causal-JEPA : Apprentissage de modèles du monde par interventions latentes au niveau objet

Causal-JEPA: Learning World Models through Object-Level Latent Interventions

February 11, 2026
papers.authors: Heejeong Nam, Quentin Le Lidec, Lucas Maes, Yann LeCun, Randall Balestriero
cs.AI

papers.abstract

Les modèles du monde nécessitent une compréhension relationnelle robuste pour étayer la prédiction, le raisonnement et le contrôle. Bien que les représentations centrées sur les objets fournissent une abstraction utile, elles ne suffisent pas à capturer les dynamiques dépendantes des interactions. Nous proposons donc C-JEPA, un modèle du monde simple et flexible centré sur les objets, qui étend la prédiction par embedding conjoint masqué des patchs d'image aux représentations centrées sur les objets. En appliquant un masquage au niveau des objets qui nécessite de déduire l'état d'un objet à partir des autres objets, C-JEPA induit des interventions latentes ayant des effets similaires au contrefactuel et empêche les solutions de raccourci, rendant le raisonnement interactionnel essentiel. Empiriquement, C-JEPA conduit à des gains constants en réponse à des questions visuelles, avec une amélioration absolue d'environ 20 % dans le raisonnement contrefactuel par rapport à la même architecture sans masquage au niveau des objets. Sur les tâches de contrôle d'agent, C-JEPA permet une planification nettement plus efficace en n'utilisant que 1 % des caractéristiques latentes d'entrée totales requises par les modèles du monde basés sur des patchs, tout en atteignant des performances comparables. Enfin, nous fournissons une analyse formelle démontrant que le masquage au niveau des objets induit un biais inductif causal via des interventions latentes. Notre code est disponible à l'adresse https://github.com/galilai-group/cjepa.
English
World models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations provide a useful abstraction, they are not sufficient to capture interaction-dependent dynamics. We therefore propose C-JEPA, a simple and flexible object-centric world model that extends masked joint embedding prediction from image patches to object-centric representations. By applying object-level masking that requires an object's state to be inferred from other objects, C-JEPA induces latent interventions with counterfactual-like effects and prevents shortcut solutions, making interaction reasoning essential. Empirically, C-JEPA leads to consistent gains in visual question answering, with an absolute improvement of about 20\% in counterfactual reasoning compared to the same architecture without object-level masking. On agent control tasks, C-JEPA enables substantially more efficient planning by using only 1\% of the total latent input features required by patch-based world models, while achieving comparable performance. Finally, we provide a formal analysis demonstrating that object-level masking induces a causal inductive bias via latent interventions. Our code is available at https://github.com/galilai-group/cjepa.
PDF21February 19, 2026