CRONOS: Evaluación comparativa de la consistencia física contrafactual en modelos de video
CRONOS: Benchmarking Counterfactual Physical Consistency in Video Models
May 22, 2026
Autores: León Begiristain, Olaf Dünkel, Adam Kortylewski
cs.AI
Resumen
La predicción de videos se considera cada vez más un camino hacia modelos de mundo generalizables, pero aún no está claro si estos sistemas aprenden la estructura causal subyacente o simplemente explotan correlaciones visuales superficiales para la predicción futura. Presentamos CRONOS, un conjunto de referencia basado en intervenciones diseñado para evaluar la consistencia física contrafáctica: si las predicciones de eventos físicos de un modelo responden adecuadamente a cambios controlados en la entrada visual, como variaciones en el contexto de la escena, el punto de vista, la apariencia del objeto y la categoría del objeto. Construido en un entorno fotorrealista de Unreal Engine, CRONOS permite la generación controlada y de alta fidelidad de videos en diversas escenas y dinámicas. En contraste con conjuntos de referencia anteriores, CRONOS interviene sistemáticamente en cuatro factores clave —punto de vista, escena, categoría del objeto y apariencia del objeto— mientras mantiene fijo el tipo de evento físico subyacente, como una colisión, oclusión o caída. Nuestra evaluación de generadores de video de código abierto recientes revela fallos sustanciales en la consistencia física contrafáctica: la calidad de la predicción para el mismo tipo de evento físico se ve afectada por la apariencia, el entorno y, particularmente, por cambios en el punto de vista. CRONOS proporciona un banco de pruebas controlado y reproducible para diagnosticar cómo cambia la calidad de los videos generados ante diferentes intervenciones, estableciendo un objetivo concreto para desarrollar modelos que se comporten de manera consistente frente a cambios en múltiples condiciones. El conjunto de datos y el código están disponibles en nuestra página del proyecto.
English
Video prediction is increasingly viewed as a path toward generalizable world models, yet it remains unclear whether these systems learn underlying causal structure or merely exploit superficial visual correlations for future prediction. We introduce CRONOS, an intervention-based benchmark designed to evaluate counterfactual physical consistency: whether a model's predictions of physical events respond appropriately to controlled changes in the visual input, such as variations of scene context, viewpoint, object appearance, and object category. Built in a photorealistic Unreal Engine environment, CRONOS enables controlled, high-fidelity generation of videos across diverse scenes and dynamics. In contrast to previous benchmarks, CRONOS systematically intervenes on four key factors - viewpoint, scene, object category, and object appearance - while keeping the underlying physical event type, such as a collision, occlusion, or fall, fixed. Our evaluation of recent open-source video generators reveals substantial failures in counterfactual physical consistency: prediction quality for the same physical event type is affected by appearance, environment, and, particularly by viewpoint changes. CRONOS provides a controlled and reproducible testbed for diagnosing how the quality of generated videos changes for different interventions, establishing a concrete target for developing models that perform consistently across changes of multiple conditions. The dataset and code are available at our project page.