CRONOS: 비디오 모델의 반사실적 물리적 일관성 벤치마킹
CRONOS: Benchmarking Counterfactual Physical Consistency in Video Models
May 22, 2026
저자: León Begiristain, Olaf Dünkel, Adam Kortylewski
cs.AI
초록
비디오 예측은 일반화 가능한 세계 모델을 향한 경로로 점차 인식되고 있지만, 이러한 시스템이 미래 예측을 위해 근본적인 인과 구조를 학습하는지 아니면 단순히 표면적인 시각적 상관관계를 활용하는지는 여전히 불명확하다. 우리는 CRONOS를 소개한다. 이는 개입 기반 벤치마크로, 역사실적 물리적 일관성(counterfactual physical consistency)을 평가하도록 설계되었다. 즉, 모델의 물리적 사건 예측이 장면 맥락, 시점, 객체 외형, 객체 범주와 같은 시각적 입력의 통제된 변화에 적절히 반응하는지 여부를 평가한다. 포토리얼리스틱 언리얼 엔진 환경에서 구축된 CRONOS는 다양한 장면과 역학에 걸쳐 통제된 고충실도 비디오 생성을 가능하게 한다. 이전 벤치마크와 달리, CRONOS는 충돌, 가림, 낙하와 같은 근본적인 물리적 사건 유형은 고정한 채 시점, 장면, 객체 범주, 객체 외형이라는 네 가지 주요 요인에 체계적으로 개입한다. 최근 오픈소스 비디오 생성기에 대한 우리의 평가는 역사실적 물리적 일관성에서 상당한 실패를 드러낸다. 동일한 물리적 사건 유형에 대한 예측 품질이 외형, 환경, 특히 시점 변화에 의해 영향을 받는다. CRONOS는 다양한 개입에 따라 생성된 비디오의 품질이 어떻게 변화하는지 진단하기 위한 통제 가능하고 재현 가능한 테스트베드를 제공하며, 여러 조건의 변화에 걸쳐 일관되게 수행되는 모델을 개발하기 위한 구체적인 목표를 설정한다. 데이터셋과 코드는 프로젝트 페이지에서 확인할 수 있다.
English
Video prediction is increasingly viewed as a path toward generalizable world models, yet it remains unclear whether these systems learn underlying causal structure or merely exploit superficial visual correlations for future prediction. We introduce CRONOS, an intervention-based benchmark designed to evaluate counterfactual physical consistency: whether a model's predictions of physical events respond appropriately to controlled changes in the visual input, such as variations of scene context, viewpoint, object appearance, and object category. Built in a photorealistic Unreal Engine environment, CRONOS enables controlled, high-fidelity generation of videos across diverse scenes and dynamics. In contrast to previous benchmarks, CRONOS systematically intervenes on four key factors - viewpoint, scene, object category, and object appearance - while keeping the underlying physical event type, such as a collision, occlusion, or fall, fixed. Our evaluation of recent open-source video generators reveals substantial failures in counterfactual physical consistency: prediction quality for the same physical event type is affected by appearance, environment, and, particularly by viewpoint changes. CRONOS provides a controlled and reproducible testbed for diagnosing how the quality of generated videos changes for different interventions, establishing a concrete target for developing models that perform consistently across changes of multiple conditions. The dataset and code are available at our project page.