YoCausal: Wie weit ist die Videogenerierung vom Weltmodell entfernt? Eine Kausalitätsperspektive

Zusammenfassung

Während sich Video-Diffusionsmodelle (VDMs) in Richtung Weltmodelle weiterentwickeln, stellt sich eine entscheidende Frage: Verstehen sie wirklich Kausalität oder passen sie sich lediglich an statistische zeitliche Muster an? Bestehende Benchmarks stützen sich meist auf synthetische Daten, was aufgrund der Sim-zu-Real-Lücke die Generalisierung auf reale Anwendungen einschränkt. Wir präsentieren YoCausal, einen zweistufigen Benchmark, der vom Paradigma der Erwartungsverletzung (Violation of Expectation, VoE) aus der Kognitionswissenschaft inspiriert ist. Durch die zeitliche Umkehrung realer Videos ohne zusätzliche Kosten als natürliche kontrafaktische Stichproben etabliert YoCausal ein beliebig erweiterbares Evaluationsprotokoll. Stufe 1 führt den Reverse Surprise Index (RSI) ein, der die Wahrnehmung des Zeitpfeils mittels Denoising-Verlust quantifiziert. Stufe 2 führt den Causality Cognition Index (CCI) ein, der ein VLM nutzt, um Datensätze in kausale und nicht-kausale Teilmengen zu stratifizieren und echte kausale Schlussfolgerungen von zeitlichen Verzerrungen zu trennen. Die Evaluierung von 13 hochmodernen VDMs zeigt, dass die Wahrnehmung des Zeitpfeils kein Verständnis von Kausalität impliziert und eine erhebliche Lücke im Vergleich zur menschlichen kausalen Kognition besteht.

English

As video diffusion models (VDMs) advance toward world models, a key question arises: do they truly understand causality, or merely overfit to statistical temporal patterns? Existing benchmarks mostly rely on synthetic data, limiting real-world generalization due to the sim-to-real gap. We present YoCausal, a two-level benchmark inspired by the Violation of Expectation (VoE) paradigm from cognitive science. By temporally reversing real-world videos at zero cost as natural counterfactual samples, YoCausal establishes an arbitrarily extensible evaluation protocol. Level 1 introduces the Reverse Surprise Index (RSI), quantifying arrow-of-time perception via denoising loss. Level 2 introduces the Causality Cognition Index (CCI), which leverages a VLM to stratify datasets into causal and non-causal subsets, disentangling genuine causal reasoning from temporal bias. Evaluation of 13 state-of-the-art VDMs reveals that perceiving the arrow of time does not imply understanding causality, and a significant gap persists relative to human-level causal cognition.