ChatPaper.aiChatPaper

Causal-JEPA: Wereldmodellen Leren door Object-Level Latente Interventies

Causal-JEPA: Learning World Models through Object-Level Latent Interventions

February 11, 2026
Auteurs: Heejeong Nam, Quentin Le Lidec, Lucas Maes, Yann LeCun, Randall Balestriero
cs.AI

Samenvatting

Wereldmodellen vereisen een robuust relationeel begrip om voorspelling, redenering en controle te ondersteunen. Hoewel objectgecentreerde representaties een nuttige abstractie bieden, zijn ze niet toereikend om interactie-afhankelijke dynamiek vast te leggen. Wij stellen daarom C-JEPA voor, een eenvoudig en flexibel objectgecentreerd wereldmodel dat gemaskeerde joint embedding-predictie uitbreidt van beeldpatches naar objectgecentreerde representaties. Door objectniveau-masking toe te passen dat vereist dat de toestand van een object wordt afgeleid uit andere objecten, induceert C-JEPA latente interventies met contrafeitelijke effecten en voorkomt het shortcut-oplossingen, wat interactieredenering essentieel maakt. Empirisch leidt C-JEPA tot consistente verbeteringen in visuele vraagbeantwoording, met een absolute verbetering van ongeveer 20% in contrafeitelijk redeneren vergeleken met dezelfde architectuur zonder objectniveau-masking. Bij agent-controletaken maakt C-JEPA aanzienlijk efficiëntere planning mogelijk door slechts 1% van de totale latente invoerkenmerken te gebruiken die patchgebaseerde wereldmodellen vereisen, terwijl vergelijkbare prestaties worden bereikt. Ten slotte bieden we een formele analyse die aantoont dat objectniveau-masking een causuele inductieve bias induceert via latente interventies. Onze code is beschikbaar op https://github.com/galilai-group/cjepa.
English
World models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations provide a useful abstraction, they are not sufficient to capture interaction-dependent dynamics. We therefore propose C-JEPA, a simple and flexible object-centric world model that extends masked joint embedding prediction from image patches to object-centric representations. By applying object-level masking that requires an object's state to be inferred from other objects, C-JEPA induces latent interventions with counterfactual-like effects and prevents shortcut solutions, making interaction reasoning essential. Empirically, C-JEPA leads to consistent gains in visual question answering, with an absolute improvement of about 20\% in counterfactual reasoning compared to the same architecture without object-level masking. On agent control tasks, C-JEPA enables substantially more efficient planning by using only 1\% of the total latent input features required by patch-based world models, while achieving comparable performance. Finally, we provide a formal analysis demonstrating that object-level masking induces a causal inductive bias via latent interventions. Our code is available at https://github.com/galilai-group/cjepa.
PDF72March 25, 2026