CRONOS : Évaluation de la cohérence physique contrefactuelle dans les modèles vidéo

Résumé

La prédiction vidéo est de plus en plus considérée comme une voie vers des modèles du monde généralisables, mais il reste incertain que ces systèmes apprennent une structure causale sous-jacente ou exploitent simplement des corrélations visuelles superficielles pour la prédiction future. Nous présentons CRONOS, un benchmark basé sur les interventions conçu pour évaluer la cohérence physique contrefactuelle : à savoir si les prédictions d'un modèle concernant des événements physiques répondent de manière appropriée à des changements contrôlés dans l'entrée visuelle, tels que des variations du contexte de la scène, du point de vue, de l'apparence des objets et de la catégorie d'objets. Construit dans un environnement photoréaliste Unreal Engine, CRONOS permet la génération contrôlée et haute-fidélité de vidéos à travers diverses scènes et dynamiques. Contrairement aux benchmarks précédents, CRONOS intervient systématiquement sur quatre facteurs clés - le point de vue, la scène, la catégorie d'objets et l'apparence des objets - tout en maintenant fixe le type d'événement physique sous-jacent, comme une collision, une occlusion ou une chute. Notre évaluation de générateurs vidéo open-source récents révèle des échecs substantiels en matière de cohérence physique contrefactuelle : la qualité de prédiction pour un même type d'événement physique est affectée par l'apparence, l'environnement, et particulièrement par les changements de point de vue. CRONOS fournit un banc d'essai contrôlé et reproductible pour diagnostiquer comment la qualité des vidéos générées change pour différentes interventions, établissant une cible concrète pour le développement de modèles qui fonctionnent de manière cohérente à travers des changements de multiples conditions. Le jeu de données et le code sont disponibles sur notre page projet.

English

Video prediction is increasingly viewed as a path toward generalizable world models, yet it remains unclear whether these systems learn underlying causal structure or merely exploit superficial visual correlations for future prediction. We introduce CRONOS, an intervention-based benchmark designed to evaluate counterfactual physical consistency: whether a model's predictions of physical events respond appropriately to controlled changes in the visual input, such as variations of scene context, viewpoint, object appearance, and object category. Built in a photorealistic Unreal Engine environment, CRONOS enables controlled, high-fidelity generation of videos across diverse scenes and dynamics. In contrast to previous benchmarks, CRONOS systematically intervenes on four key factors - viewpoint, scene, object category, and object appearance - while keeping the underlying physical event type, such as a collision, occlusion, or fall, fixed. Our evaluation of recent open-source video generators reveals substantial failures in counterfactual physical consistency: prediction quality for the same physical event type is affected by appearance, environment, and, particularly by viewpoint changes. CRONOS provides a controlled and reproducible testbed for diagnosing how the quality of generated videos changes for different interventions, establishing a concrete target for developing models that perform consistently across changes of multiple conditions. The dataset and code are available at our project page.