ChatPaper.aiChatPaper

CRONOS: Benchmarking de Consistência Física Contrafactual em Modelos de Vídeo

CRONOS: Benchmarking Counterfactual Physical Consistency in Video Models

May 22, 2026
Autores: León Begiristain, Olaf Dünkel, Adam Kortylewski
cs.AI

Resumo

A previsão de vídeos é cada vez mais vista como um caminho para modelos de mundo generalizáveis, porém ainda não está claro se esses sistemas aprendem a estrutura causal subjacente ou meramente exploram correlações visuais superficiais para a previsão futura. Apresentamos o CRONOS, um benchmark baseado em intervenções projetado para avaliar a consistência física contrafactual: se as previsões de eventos físicos de um modelo respondem adequadamente a mudanças controladas na entrada visual, como variações de contexto da cena, ponto de vista, aparência do objeto e categoria do objeto. Construído em um ambiente fotorrealista do Unreal Engine, o CRONOS permite a geração controlada e de alta fidelidade de vídeos em diversas cenas e dinâmicas. Em contraste com benchmarks anteriores, o CRONOS intervém sistematicamente em quatro fatores-chave — ponto de vista, cena, categoria do objeto e aparência do objeto — mantendo fixo o tipo de evento físico subjacente, como colisão, oclusão ou queda. Nossa avaliação de geradores de vídeo open-source recentes revela falhas substanciais na consistência física contrafactual: a qualidade da previsão para o mesmo tipo de evento físico é afetada pela aparência, ambiente e, particularmente, por mudanças de ponto de vista. O CRONOS fornece um ambiente de teste controlado e reprodutível para diagnosticar como a qualidade dos vídeos gerados muda para diferentes intervenções, estabelecendo um alvo concreto para o desenvolvimento de modelos que tenham desempenho consistente em mudanças de múltiplas condições. O conjunto de dados e o código estão disponíveis em nossa página do projeto.
English
Video prediction is increasingly viewed as a path toward generalizable world models, yet it remains unclear whether these systems learn underlying causal structure or merely exploit superficial visual correlations for future prediction. We introduce CRONOS, an intervention-based benchmark designed to evaluate counterfactual physical consistency: whether a model's predictions of physical events respond appropriately to controlled changes in the visual input, such as variations of scene context, viewpoint, object appearance, and object category. Built in a photorealistic Unreal Engine environment, CRONOS enables controlled, high-fidelity generation of videos across diverse scenes and dynamics. In contrast to previous benchmarks, CRONOS systematically intervenes on four key factors - viewpoint, scene, object category, and object appearance - while keeping the underlying physical event type, such as a collision, occlusion, or fall, fixed. Our evaluation of recent open-source video generators reveals substantial failures in counterfactual physical consistency: prediction quality for the same physical event type is affected by appearance, environment, and, particularly by viewpoint changes. CRONOS provides a controlled and reproducible testbed for diagnosing how the quality of generated videos changes for different interventions, establishing a concrete target for developing models that perform consistently across changes of multiple conditions. The dataset and code are available at our project page.