CRONOS: Het benchmarken van contrafactische fysieke consistentie in videomodellen
CRONOS: Benchmarking Counterfactual Physical Consistency in Video Models
May 22, 2026
Auteurs: León Begiristain, Olaf Dünkel, Adam Kortylewski
cs.AI
Samenvatting
Videovoorspelling wordt steeds vaker gezien als een weg naar generaliseerbare wereldmodellen, maar het blijft onduidelijk of deze systemen onderliggende causale structuur leren of slechts oppervlakkige visuele correlaties exploiteren voor toekomstvoorspelling. We introduceren CRONOS, een op interventies gebaseerde benchmark ontworpen om contrafeitelijke fysieke consistentie te evalueren: of de voorspellingen van een model van fysieke gebeurtenissen op gepaste wijze reageren op gecontroleerde veranderingen in de visuele input, zoals variaties in scènecontext, gezichtspunt, objectuiterlijk en objectcategorie. Gebouwd in een fotorealistische Unreal Engine-omgeving maakt CRONOS gecontroleerde, hoogwaardige generatie van video's over diverse scènes en dynamieken mogelijk. In tegenstelling tot eerdere benchmarks grijpt CRONOS systematisch in op vier sleutelfactoren – gezichtspunt, scène, objectcategorie en objectuiterlijk – terwijl het onderliggende fysieke gebeurtenistype, zoals een botsing, occlusie of val, vast blijft. Onze evaluatie van recente open-source videogeneratoren onthult substantiële falen in contrafeitelijke fysieke consistentie: voorspellingskwaliteit voor hetzelfde fysieke gebeurtenistype wordt beïnvloed door uiterlijk, omgeving, en met name door veranderingen van gezichtspunt. CRONOS biedt een gecontroleerd en reproduceerbaar testbed voor het diagnosticeren van hoe de kwaliteit van gegenereerde video's verandert bij verschillende interventies, waarmee een concreet doel wordt gesteld voor het ontwikkelen van modellen die consistent presteren over veranderingen van meerdere omstandigheden. De dataset en code zijn beschikbaar op onze projectpagina.
English
Video prediction is increasingly viewed as a path toward generalizable world models, yet it remains unclear whether these systems learn underlying causal structure or merely exploit superficial visual correlations for future prediction. We introduce CRONOS, an intervention-based benchmark designed to evaluate counterfactual physical consistency: whether a model's predictions of physical events respond appropriately to controlled changes in the visual input, such as variations of scene context, viewpoint, object appearance, and object category. Built in a photorealistic Unreal Engine environment, CRONOS enables controlled, high-fidelity generation of videos across diverse scenes and dynamics. In contrast to previous benchmarks, CRONOS systematically intervenes on four key factors - viewpoint, scene, object category, and object appearance - while keeping the underlying physical event type, such as a collision, occlusion, or fall, fixed. Our evaluation of recent open-source video generators reveals substantial failures in counterfactual physical consistency: prediction quality for the same physical event type is affected by appearance, environment, and, particularly by viewpoint changes. CRONOS provides a controlled and reproducible testbed for diagnosing how the quality of generated videos changes for different interventions, establishing a concrete target for developing models that perform consistently across changes of multiple conditions. The dataset and code are available at our project page.