CRONOS: ビデオモデルにおける反事実的物理的一貫性のベンチマーキング
CRONOS: Benchmarking Counterfactual Physical Consistency in Video Models
May 22, 2026
著者: León Begiristain, Olaf Dünkel, Adam Kortylewski
cs.AI
要旨
ビデオ予測は、汎用的な世界モデルへの道筋としてますます注目されているが、これらのシステムが下層の因果構造を学習しているのか、それとも将来予測のために単に見かけ上の視覚的相関を利用しているにすぎないのかは、依然として明らかではない。本稿では、介入に基づくベンチマークCRONOSを導入する。これは、モデルによる物理事象の予測が、視覚入力の制御された変化(シーンコンテキスト、視点、物体の外観、物体カテゴリの変化など)に適切に応答するかどうか、すなわち反事実的物理的一貫性を評価するために設計されたものである。CRONOSは、フォトリアリスティックなUnreal Engine環境で構築されており、多様なシーンとダイナミクスにわたる制御された高忠実度のビデオ生成を可能にする。従来のベンチマークとは対照的に、CRONOSは、衝突、遮蔽、落下などの基礎となる物理事象のタイプを固定したまま、視点、シーン、物体カテゴリ、物体の外観という4つの主要因子に体系的に介入する。最近のオープンソースビデオ生成モデルを評価した結果、反事実的物理的一貫性に重大な欠陥があることが明らかになった。同じ物理事象タイプに対する予測品質が、物体の外観、環境、特に視点の変化によって影響を受けるのである。CRONOSは、異なる介入に対して生成ビデオの品質がどのように変化するかを診断するための、制御可能で再現性のあるテストベッドを提供し、複数の条件の変化にわたって一貫して動作するモデルを開発するための具体的な目標を設定する。データセットとコードはプロジェクトページで公開されている。
English
Video prediction is increasingly viewed as a path toward generalizable world models, yet it remains unclear whether these systems learn underlying causal structure or merely exploit superficial visual correlations for future prediction. We introduce CRONOS, an intervention-based benchmark designed to evaluate counterfactual physical consistency: whether a model's predictions of physical events respond appropriately to controlled changes in the visual input, such as variations of scene context, viewpoint, object appearance, and object category. Built in a photorealistic Unreal Engine environment, CRONOS enables controlled, high-fidelity generation of videos across diverse scenes and dynamics. In contrast to previous benchmarks, CRONOS systematically intervenes on four key factors - viewpoint, scene, object category, and object appearance - while keeping the underlying physical event type, such as a collision, occlusion, or fall, fixed. Our evaluation of recent open-source video generators reveals substantial failures in counterfactual physical consistency: prediction quality for the same physical event type is affected by appearance, environment, and, particularly by viewpoint changes. CRONOS provides a controlled and reproducible testbed for diagnosing how the quality of generated videos changes for different interventions, establishing a concrete target for developing models that perform consistently across changes of multiple conditions. The dataset and code are available at our project page.