Causal-JEPA: Aprendizagem de Modelos do Mundo através de Intervenções Latentes a Nível de Objeto

Resumo

Os modelos de mundo exigem uma compreensão relacional robusta para suportar previsão, raciocínio e controle. Embora as representações centradas em objetos forneçam uma abstração útil, elas não são suficientes para capturar dinâmicas dependentes de interações. Portanto, propomos o C-JEPA, um modelo de mundo centrado em objetos simples e flexível que estende a previsão de incorporação conjunta mascarada de *patches* de imagem para representações centradas em objetos. Ao aplicar um mascaramento a nível de objetos que exige que o estado de um objeto seja inferido a partir de outros objetos, o C-JEPA induz intervenções latentes com efeitos contrafactuais e previne soluções por atalho, tornando o raciocínio sobre interações essencial. Empiricamente, o C-JEPA resulta em ganhos consistentes em tarefas de resposta a perguntas visuais, com uma melhoria absoluta de cerca de 20% no raciocínio contrafactual em comparação com a mesma arquitetura sem mascaramento a nível de objetos. Em tarefas de controle de agentes, o C-JEPA permite um planeamento substancialmente mais eficiente, utilizando apenas 1% do total de características latentes de entrada necessárias para modelos de mundo baseados em *patches*, ao mesmo tempo que alcança um desempenho comparável. Por fim, fornecemos uma análise formal que demonstra que o mascaramento a nível de objetos induz um *bias* indutivo causal através de intervenções latentes. O nosso código está disponível em https://github.com/galilai-group/cjepa.

English

World models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations provide a useful abstraction, they are not sufficient to capture interaction-dependent dynamics. We therefore propose C-JEPA, a simple and flexible object-centric world model that extends masked joint embedding prediction from image patches to object-centric representations. By applying object-level masking that requires an object's state to be inferred from other objects, C-JEPA induces latent interventions with counterfactual-like effects and prevents shortcut solutions, making interaction reasoning essential. Empirically, C-JEPA leads to consistent gains in visual question answering, with an absolute improvement of about 20\% in counterfactual reasoning compared to the same architecture without object-level masking. On agent control tasks, C-JEPA enables substantially more efficient planning by using only 1\% of the total latent input features required by patch-based world models, while achieving comparable performance. Finally, we provide a formal analysis demonstrating that object-level masking induces a causal inductive bias via latent interventions. Our code is available at https://github.com/galilai-group/cjepa.