Causal-JEPA: Apprendimento di Modelli del Mondo attraverso Interventi Latenti a Livello Oggetto

Abstract

I modelli del mondo richiedono una solida comprensione relazionale per supportare previsioni, ragionamento e controllo. Sebbene le rappresentazioni object-centric forniscano un'utile astrazione, non sono sufficienti per catturare dinamiche dipendenti dalle interazioni. Proponiamo quindi C-JEPA, un modello del mondo object-centric semplice e flessibile che estende la predizione mascherata di embedding congiunti dai patch di immagine alle rappresentazioni object-centric. Applicando un mascheramento a livello di oggetto che richiede di inferire lo stato di un oggetto dagli altri oggetti, C-JEPA induce interventi latenti con effetti simili al controfattuale e previene soluzioni di scorciatoia, rendendo essenziale il ragionamento interattivo. Empiricamente, C-JEPA produce miglioramenti consistenti nel visual question answering, con un incremento assoluto di circa il 20% nel ragionamento controfattuale rispetto alla stessa architettura senza mascheramento a livello di oggetto. Sui compiti di controllo di agenti, C-JEPA abilita una pianificazione sostanzialmente più efficiente utilizzando solo l'1% delle caratteristiche latenti di input totali richieste dai modelli del mondo basati su patch, pur raggiungendo prestazioni comparabili. Infine, forniamo un'analisi formale che dimostra come il mascheramento a livello di oggetto induca un bias induttivo causale tramite interventi latenti. Il nostro codice è disponibile all'indirizzo https://github.com/galilai-group/cjepa.

English

World models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations provide a useful abstraction, they are not sufficient to capture interaction-dependent dynamics. We therefore propose C-JEPA, a simple and flexible object-centric world model that extends masked joint embedding prediction from image patches to object-centric representations. By applying object-level masking that requires an object's state to be inferred from other objects, C-JEPA induces latent interventions with counterfactual-like effects and prevents shortcut solutions, making interaction reasoning essential. Empirically, C-JEPA leads to consistent gains in visual question answering, with an absolute improvement of about 20\% in counterfactual reasoning compared to the same architecture without object-level masking. On agent control tasks, C-JEPA enables substantially more efficient planning by using only 1\% of the total latent input features required by patch-based world models, while achieving comparable performance. Finally, we provide a formal analysis demonstrating that object-level masking induces a causal inductive bias via latent interventions. Our code is available at https://github.com/galilai-group/cjepa.

Causal-JEPA: Apprendimento di Modelli del Mondo attraverso Interventi Latenti a Livello Oggetto

Causal-JEPA: Learning World Models through Object-Level Latent Interventions

Abstract

Support