Causal-JEPA: Aprendizaje de Modelos del Mundo mediante Intervenciones Latentes a Nivel de Objetos
Causal-JEPA: Learning World Models through Object-Level Latent Interventions
February 11, 2026
Autores: Heejeong Nam, Quentin Le Lidec, Lucas Maes, Yann LeCun, Randall Balestriero
cs.AI
Resumen
Los modelos del mundo requieren una comprensión relacional robusta para sustentar la predicción, el razonamiento y el control. Si bien las representaciones céntricas en objetos proporcionan una abstracción útil, no son suficientes para capturar dinámicas dependientes de interacciones. Por lo tanto, proponemos C-JEPA, un modelo del mundo céntrico en objetos, simple y flexible, que extiende la predicción de embeddings conjuntos enmascarados desde parches de imagen a representaciones céntricas en objetos. Al aplicar un enmascaramiento a nivel de objeto que requiere inferir el estado de un objeto a partir de otros objetos, C-JEPA induce intervenciones latentes con efectos contrafactuales y evita soluciones por atajos, haciendo que el razonamiento sobre interacciones sea esencial. Empíricamente, C-JEPA produce mejoras consistentes en la respuesta a preguntas visuales, con una mejora absoluta de aproximadamente el 20% en el razonamiento contrafactual en comparación con la misma arquitectura sin enmascaramiento a nivel de objeto. En tareas de control de agentes, C-JEPA permite una planificación sustancialmente más eficiente al utilizar solo el 1% de las características latentes de entrada totales requeridas por los modelos del mundo basados en parches, logrando un rendimiento comparable. Finalmente, proporcionamos un análisis formal que demuestra que el enmascaramiento a nivel de objeto induce un sesgo inductivo causal mediante intervenciones latentes. Nuestro código está disponible en https://github.com/galilai-group/cjepa.
English
World models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations provide a useful abstraction, they are not sufficient to capture interaction-dependent dynamics. We therefore propose C-JEPA, a simple and flexible object-centric world model that extends masked joint embedding prediction from image patches to object-centric representations. By applying object-level masking that requires an object's state to be inferred from other objects, C-JEPA induces latent interventions with counterfactual-like effects and prevents shortcut solutions, making interaction reasoning essential. Empirically, C-JEPA leads to consistent gains in visual question answering, with an absolute improvement of about 20\% in counterfactual reasoning compared to the same architecture without object-level masking. On agent control tasks, C-JEPA enables substantially more efficient planning by using only 1\% of the total latent input features required by patch-based world models, while achieving comparable performance. Finally, we provide a formal analysis demonstrating that object-level masking induces a causal inductive bias via latent interventions. Our code is available at https://github.com/galilai-group/cjepa.