Causal-JEPA: Обучение мировых моделей через объектно-ориентированные латентные вмешательства
Causal-JEPA: Learning World Models through Object-Level Latent Interventions
February 11, 2026
Авторы: Heejeong Nam, Quentin Le Lidec, Lucas Maes, Yann LeCun, Randall Balestriero
cs.AI
Аннотация
Модели мира требуют надежного реляционного понимания для поддержки прогнозирования, логического вывода и управления. Хотя объектно-ориентированные представления предоставляют полезную абстракцию, они недостаточны для описания динамики, зависящей от взаимодействий. Поэтому мы предлагаем C-JEPA — простую и гибкую объектно-ориентированную модель мира, которая расширяет задачу предсказания маскированных совместных представлений с патчей изображений на объектно-ориентированные представления. Применяя маскирование на уровне объектов, которое требует вывода состояния объекта из состояний других объектов, C-JEPA индуцирует латентные вмешательства с контрфактическими эффектами и предотвращает поиск упрощенных решений, делая анализ взаимодействий необходимым. Экспериментально C-JEPA демонстрирует устойчивое улучшение в задачах визуального ответа на вопросы, с абсолютным приростом около 20% в контрфактическом reasoning по сравнению с той же архитектурой без объектного маскирования. В задачах управления агентом C-JEPA обеспечивает существенно более эффективное планирование, используя лишь 1% от общего количества латентных признаков, требуемых моделями мира на основе патчей, при достижении сопоставимой производительности. Наконец, мы предоставляем формальный анализ, показывающий, что маскирование на уровне объектов индуцирует каузальную индуктивную предвзятость через латентные вмешательства. Наш код доступен по адресу https://github.com/galilai-group/cjepa.
English
World models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations provide a useful abstraction, they are not sufficient to capture interaction-dependent dynamics. We therefore propose C-JEPA, a simple and flexible object-centric world model that extends masked joint embedding prediction from image patches to object-centric representations. By applying object-level masking that requires an object's state to be inferred from other objects, C-JEPA induces latent interventions with counterfactual-like effects and prevents shortcut solutions, making interaction reasoning essential. Empirically, C-JEPA leads to consistent gains in visual question answering, with an absolute improvement of about 20\% in counterfactual reasoning compared to the same architecture without object-level masking. On agent control tasks, C-JEPA enables substantially more efficient planning by using only 1\% of the total latent input features required by patch-based world models, while achieving comparable performance. Finally, we provide a formal analysis demonstrating that object-level masking induces a causal inductive bias via latent interventions. Our code is available at https://github.com/galilai-group/cjepa.