YoCausal: ¿Qué tan lejos está la generación de vídeo del modelo del mundo? Una perspectiva de causalidad

Resumen

A medida que los modelos de difusión de video (VDMs) avanzan hacia modelos del mundo, surge una pregunta clave: ¿comprenden realmente la causalidad o simplemente se sobreajustan a patrones temporales estadísticos? Los puntos de referencia existentes se basan mayoritariamente en datos sintéticos, lo que limita su generalización al mundo real debido a la brecha sim-real. Presentamos YoCausal, un punto de referencia de dos niveles inspirado en el paradigma de Violación de Expectativa (VoE) de la ciencia cognitiva. Al invertir temporalmente videos del mundo real sin costo adicional como muestras contrafactuales naturales, YoCausal establece un protocolo de evaluación arbitrariamente extensible. El Nivel 1 introduce el Índice de Sorpresa Inversa (RSI), que cuantifica la percepción de la flecha del tiempo mediante la pérdida de denoising. El Nivel 2 introduce el Índice de Cognición Causal (CCI), que utiliza un VLM para estratificar conjuntos de datos en subconjuntos causales y no causales, separando el razonamiento causal genuino del sesgo temporal. La evaluación de 13 VDMs de última generación revela que percibir la flecha del tiempo no implica comprender la causalidad, y persiste una brecha significativa en comparación con la cognición causal a nivel humano.

English

As video diffusion models (VDMs) advance toward world models, a key question arises: do they truly understand causality, or merely overfit to statistical temporal patterns? Existing benchmarks mostly rely on synthetic data, limiting real-world generalization due to the sim-to-real gap. We present YoCausal, a two-level benchmark inspired by the Violation of Expectation (VoE) paradigm from cognitive science. By temporally reversing real-world videos at zero cost as natural counterfactual samples, YoCausal establishes an arbitrarily extensible evaluation protocol. Level 1 introduces the Reverse Surprise Index (RSI), quantifying arrow-of-time perception via denoising loss. Level 2 introduces the Causality Cognition Index (CCI), which leverages a VLM to stratify datasets into causal and non-causal subsets, disentangling genuine causal reasoning from temporal bias. Evaluation of 13 state-of-the-art VDMs reveals that perceiving the arrow of time does not imply understanding causality, and a significant gap persists relative to human-level causal cognition.