YoCausal : Quelle distance entre la génération vidéo et le modèle du monde ? Une perspective causale

Résumé

Alors que les modèles de diffusion vidéo (VDM) progressent vers des modèles du monde, une question clé se pose : comprennent-ils véritablement la causalité, ou se contentent-ils de surajuster les motifs statistiques temporels ? Les bancs d'essai existants reposent principalement sur des données synthétiques, ce qui limite la généralisation au monde réel en raison du fossé simulation-réalité. Nous présentons YoCausal, un banc d'essai à deux niveaux inspiré du paradigme de la Violation de l'Attente (VoE) issu des sciences cognitives. En inversant temporellement des vidéos du monde réel à coût nul pour obtenir des échantillons contre-factuels naturels, YoCausal établit un protocole d'évaluation arbitrairement extensible. Le niveau 1 introduit l'Indice de Surprise Inverse (RSI), qui quantifie la perception de la flèche du temps via la perte de débruitage. Le niveau 2 introduit l'Indice de Cognition Causale (CCI), qui exploite un VLM pour stratifier les ensembles de données en sous-ensembles causaux et non causaux, dissociant le raisonnement causal authentique du biais temporel. L'évaluation de 13 VDM de pointe révèle que percevoir la flèche du temps n'implique pas de comprendre la causalité, et qu'un écart significatif persiste par rapport à la cognition causale de niveau humain.

English

As video diffusion models (VDMs) advance toward world models, a key question arises: do they truly understand causality, or merely overfit to statistical temporal patterns? Existing benchmarks mostly rely on synthetic data, limiting real-world generalization due to the sim-to-real gap. We present YoCausal, a two-level benchmark inspired by the Violation of Expectation (VoE) paradigm from cognitive science. By temporally reversing real-world videos at zero cost as natural counterfactual samples, YoCausal establishes an arbitrarily extensible evaluation protocol. Level 1 introduces the Reverse Surprise Index (RSI), quantifying arrow-of-time perception via denoising loss. Level 2 introduces the Causality Cognition Index (CCI), which leverages a VLM to stratify datasets into causal and non-causal subsets, disentangling genuine causal reasoning from temporal bias. Evaluation of 13 state-of-the-art VDMs reveals that perceiving the arrow of time does not imply understanding causality, and a significant gap persists relative to human-level causal cognition.