Causal-JEPA: Wereldmodellen Leren door Object-Level Latente Interventies

Samenvatting

Wereldmodellen vereisen een robuust relationeel begrip om voorspelling, redenering en controle te ondersteunen. Hoewel objectgecentreerde representaties een nuttige abstractie bieden, zijn ze niet toereikend om interactie-afhankelijke dynamiek vast te leggen. Wij stellen daarom C-JEPA voor, een eenvoudig en flexibel objectgecentreerd wereldmodel dat gemaskeerde joint embedding-predictie uitbreidt van beeldpatches naar objectgecentreerde representaties. Door objectniveau-masking toe te passen dat vereist dat de toestand van een object wordt afgeleid uit andere objecten, induceert C-JEPA latente interventies met contrafeitelijke effecten en voorkomt het shortcut-oplossingen, wat interactieredenering essentieel maakt. Empirisch leidt C-JEPA tot consistente verbeteringen in visuele vraagbeantwoording, met een absolute verbetering van ongeveer 20% in contrafeitelijk redeneren vergeleken met dezelfde architectuur zonder objectniveau-masking. Bij agent-controletaken maakt C-JEPA aanzienlijk efficiëntere planning mogelijk door slechts 1% van de totale latente invoerkenmerken te gebruiken die patchgebaseerde wereldmodellen vereisen, terwijl vergelijkbare prestaties worden bereikt. Ten slotte bieden we een formele analyse die aantoont dat objectniveau-masking een causuele inductieve bias induceert via latente interventies. Onze code is beschikbaar op https://github.com/galilai-group/cjepa.

English

World models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations provide a useful abstraction, they are not sufficient to capture interaction-dependent dynamics. We therefore propose C-JEPA, a simple and flexible object-centric world model that extends masked joint embedding prediction from image patches to object-centric representations. By applying object-level masking that requires an object's state to be inferred from other objects, C-JEPA induces latent interventions with counterfactual-like effects and prevents shortcut solutions, making interaction reasoning essential. Empirically, C-JEPA leads to consistent gains in visual question answering, with an absolute improvement of about 20\% in counterfactual reasoning compared to the same architecture without object-level masking. On agent control tasks, C-JEPA enables substantially more efficient planning by using only 1\% of the total latent input features required by patch-based world models, while achieving comparable performance. Finally, we provide a formal analysis demonstrating that object-level masking induces a causal inductive bias via latent interventions. Our code is available at https://github.com/galilai-group/cjepa.

Causal-JEPA: Wereldmodellen Leren door Object-Level Latente Interventies

Causal-JEPA: Learning World Models through Object-Level Latent Interventions

Samenvatting

Support