Causal-JEPA: Erlernen von Weltmodellen durch latente Interventionen auf Objektebene
Causal-JEPA: Learning World Models through Object-Level Latent Interventions
February 11, 2026
papers.authors: Heejeong Nam, Quentin Le Lidec, Lucas Maes, Yann LeCun, Randall Balestriero
cs.AI
papers.abstract
Weltmodelle erfordern ein robustes relationales Verständnis, um Vorhersagen, Schlussfolgerungen und Steuerung zu unterstützen. Während objektzentrierte Repräsentationen eine nützliche Abstraktion bieten, reichen sie nicht aus, um interaktionsabhängige Dynamiken zu erfassen. Daher schlagen wir C-JEPA vor, ein einfaches und flexibles objektzentriertes Weltmodell, das die maskierte Joint-Embedding-Vorhersage von Bildpatches auf objektzentrierte Repräsentationen erweitert. Durch die Anwendung einer objektbasierten Maskierung, die erfordert, dass der Zustand eines Objekts aus anderen Objekten abgeleitet werden muss, induziert C-JEPA latente Interventionen mit kontrafaktischen Effekten und verhindert Abkürzungslösungen, was Interaktionsschlussfolgerungen essenziell macht. Empirisch führt C-JEPA zu konsistenten Verbesserungen beim visuellen Fragebeantworten, mit einer absoluten Verbesserung von etwa 20 % im kontrafaktischen Denken im Vergleich zur gleichen Architektur ohne objektbasierte Maskierung. Bei Agenten-Steuerungsaufgaben ermöglicht C-JEPA eine erheblich effizientere Planung, indem nur 1 % der gesamten latenten Eingabemerkmale verwendet werden, die von patchbasierten Weltmodellen benötigt werden, bei vergleichbarer Leistung. Abschließend liefern wir eine formale Analyse, die zeigt, dass objektbasierte Maskierung über latente Interventionen eine kausale Induktionsverzerrung induziert. Unser Code ist verfügbar unter https://github.com/galilai-group/cjepa.
English
World models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations provide a useful abstraction, they are not sufficient to capture interaction-dependent dynamics. We therefore propose C-JEPA, a simple and flexible object-centric world model that extends masked joint embedding prediction from image patches to object-centric representations. By applying object-level masking that requires an object's state to be inferred from other objects, C-JEPA induces latent interventions with counterfactual-like effects and prevents shortcut solutions, making interaction reasoning essential. Empirically, C-JEPA leads to consistent gains in visual question answering, with an absolute improvement of about 20\% in counterfactual reasoning compared to the same architecture without object-level masking. On agent control tasks, C-JEPA enables substantially more efficient planning by using only 1\% of the total latent input features required by patch-based world models, while achieving comparable performance. Finally, we provide a formal analysis demonstrating that object-level masking induces a causal inductive bias via latent interventions. Our code is available at https://github.com/galilai-group/cjepa.