ChatPaper.aiChatPaper

Causal-JEPA: オブジェクトレベルの潜在介入による世界モデルの学習

Causal-JEPA: Learning World Models through Object-Level Latent Interventions

February 11, 2026
著者: Heejeong Nam, Quentin Le Lidec, Lucas Maes, Yann LeCun, Randall Balestriero
cs.AI

要旨

世界モデルは、予測・推論・制御を支えるために堅牢な関係理解を必要とする。オブジェクト中心の表現は有用な抽象化を提供するが、相互作用に依存するダイナミクスを捉えるには不十分である。そこで我々は、マスクされた結合埋め込み予測を画像パッチからオブジェクト中心表現へ拡張した、簡潔で柔軟なオブジェクト中心世界モデルC-JEPAを提案する。オブジェクトの状態を他のオブジェクトから推論することを要求するオブジェクトレベルのマスキングを適用することで、C-JEPAは反事実的効果をもつ潜在的介入を誘起し、短絡解を防止し、相互作用推論を必須とする。実験では、C-JEPAは視覚質問応答において一貫した性能向上をもたらし、オブジェクトレベルのマスキングなしの同一アーキテクチャと比較して反事実推論で約20%の絶対改善を示した。エージェント制御タスクでは、C-JEPAはパッチベース世界モデルが必要とする全潜在入力特徴のわずか1%を使用しながら、同等の性能を達成し、大幅に効率的な計画を実現した。最後に、オブジェクトレベルのマスキングが潜在的介入を通じて因果的帰納バイアスを誘起することを示す形式的分析を提供する。コードはhttps://github.com/galilai-group/cjepa で公開している。
English
World models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations provide a useful abstraction, they are not sufficient to capture interaction-dependent dynamics. We therefore propose C-JEPA, a simple and flexible object-centric world model that extends masked joint embedding prediction from image patches to object-centric representations. By applying object-level masking that requires an object's state to be inferred from other objects, C-JEPA induces latent interventions with counterfactual-like effects and prevents shortcut solutions, making interaction reasoning essential. Empirically, C-JEPA leads to consistent gains in visual question answering, with an absolute improvement of about 20\% in counterfactual reasoning compared to the same architecture without object-level masking. On agent control tasks, C-JEPA enables substantially more efficient planning by using only 1\% of the total latent input features required by patch-based world models, while achieving comparable performance. Finally, we provide a formal analysis demonstrating that object-level masking induces a causal inductive bias via latent interventions. Our code is available at https://github.com/galilai-group/cjepa.
PDF21February 19, 2026