YoCausal: Hoe ver staat videogeneratie van een wereldmodel? Een causaliteitsperspectief

Samenvatting

Naarmate videodiffusiemodellen (VDM's) zich ontwikkelen richting wereldmodellen, rijst een cruciale vraag: begrijpen zij werkelijk causaliteit, of passen zij zich slechts aan aan statistische temporele patronen? Bestaande benchmarks zijn veelal gebaseerd op synthetische data, wat de generalisatie naar de echte wereld beperkt door de simulatie-naar-realiteit-kloof. Wij presenteren YoCausal, een tweeledige benchmark geïnspireerd op het paradigma van schending van verwachting (Violation of Expectation, VoE) uit de cognitieve wetenschap. Door realistische video's kosteloos temporeel om te keren als natuurlijke tegenfeitelijke steekproeven, vestigt YoCausal een willekeurig uitbreidbaar evaluatieprotocol. Niveau 1 introduceert de Reverse Surprise Index (RSI), die de perceptie van de tijdsrichting kwantificeert via denoisingverlies. Niveau 2 introduceert de Causality Cognition Index (CCI), die een VLM gebruikt om datasets te stratificeren in causale en niet-causale subsets, waardoor echte causale redenering wordt ontrafeld van temporele bias. Evaluatie van 13 state-of-the-art VDM's laat zien dat het waarnemen van de tijdsrichting niet impliceert dat causaliteit wordt begrepen, en dat er een aanzienlijke kloof blijft bestaan ten opzichte van causaal denken op menselijk niveau.

English

As video diffusion models (VDMs) advance toward world models, a key question arises: do they truly understand causality, or merely overfit to statistical temporal patterns? Existing benchmarks mostly rely on synthetic data, limiting real-world generalization due to the sim-to-real gap. We present YoCausal, a two-level benchmark inspired by the Violation of Expectation (VoE) paradigm from cognitive science. By temporally reversing real-world videos at zero cost as natural counterfactual samples, YoCausal establishes an arbitrarily extensible evaluation protocol. Level 1 introduces the Reverse Surprise Index (RSI), quantifying arrow-of-time perception via denoising loss. Level 2 introduces the Causality Cognition Index (CCI), which leverages a VLM to stratify datasets into causal and non-causal subsets, disentangling genuine causal reasoning from temporal bias. Evaluation of 13 state-of-the-art VDMs reveals that perceiving the arrow of time does not imply understanding causality, and a significant gap persists relative to human-level causal cognition.