ChatPaper.aiChatPaper

CRONOS: Benchmarking der kontrafaktischen physikalischen Konsistenz in Videomodellen

CRONOS: Benchmarking Counterfactual Physical Consistency in Video Models

May 22, 2026
Autoren: León Begiristain, Olaf Dünkel, Adam Kortylewski
cs.AI

Zusammenfassung

Videovorhersage wird zunehmend als Weg zu generalisierbaren Weltmodellen betrachtet, doch bleibt unklar, ob diese Systeme zugrundeliegende kausale Strukturen erlernen oder lediglich oberflächliche visuelle Korrelationen für die zukünftige Vorhersage ausnutzen. Wir stellen CRONOS vor, einen interventionsbasierten Benchmark zur Bewertung der kontrafaktischen physikalischen Konsistenz: ob die Vorhersagen eines Modells physikalischer Ereignisse angemessen auf kontrollierte Veränderungen der visuellen Eingabe reagieren, wie etwa Variationen des Szenenkontexts, des Blickwinkels, des Objektaussehens und der Objektkategorie. Aufgebaut in einer fotorealistischen Unreal-Engine-Umgebung ermöglicht CRONOS die kontrollierte, detailgetreue Generierung von Videos über verschiedene Szenen und Dynamiken hinweg. Im Gegensatz zu früheren Benchmarks greift CRONOS systematisch in vier Schlüsselfaktoren ein – Blickwinkel, Szene, Objektkategorie und Objektaussehen – während der zugrundeliegende physikalische Ereignistyp, wie eine Kollision, Okklusion oder ein Fall, konstant bleibt. Unsere Evaluierung aktueller Open-Source-Videogeneratoren zeigt erhebliche Defizite in der kontrafaktischen physikalischen Konsistenz: Die Vorhersagequalität für denselben physikalischen Ereignistyp wird durch das Aussehen, die Umgebung und insbesondere durch Blickwinkeländerungen beeinflusst. CRONOS bietet eine kontrollierte und reproduzierbare Testumgebung, um zu diagnostizieren, wie sich die Qualität generierter Videos bei verschiedenen Interventionen verändert, und setzt ein konkretes Ziel für die Entwicklung von Modellen, die konsistent über Veränderungen mehrerer Bedingungen hinweg arbeiten. Der Datensatz und der Code sind auf unserer Projektseite verfügbar.
English
Video prediction is increasingly viewed as a path toward generalizable world models, yet it remains unclear whether these systems learn underlying causal structure or merely exploit superficial visual correlations for future prediction. We introduce CRONOS, an intervention-based benchmark designed to evaluate counterfactual physical consistency: whether a model's predictions of physical events respond appropriately to controlled changes in the visual input, such as variations of scene context, viewpoint, object appearance, and object category. Built in a photorealistic Unreal Engine environment, CRONOS enables controlled, high-fidelity generation of videos across diverse scenes and dynamics. In contrast to previous benchmarks, CRONOS systematically intervenes on four key factors - viewpoint, scene, object category, and object appearance - while keeping the underlying physical event type, such as a collision, occlusion, or fall, fixed. Our evaluation of recent open-source video generators reveals substantial failures in counterfactual physical consistency: prediction quality for the same physical event type is affected by appearance, environment, and, particularly by viewpoint changes. CRONOS provides a controlled and reproducible testbed for diagnosing how the quality of generated videos changes for different interventions, establishing a concrete target for developing models that perform consistently across changes of multiple conditions. The dataset and code are available at our project page.