ChatPaper.aiChatPaper

CRONOS: Оценка контрфактической физической согласованности в видеомоделях

CRONOS: Benchmarking Counterfactual Physical Consistency in Video Models

May 22, 2026
Авторы: León Begiristain, Olaf Dünkel, Adam Kortylewski
cs.AI

Аннотация

Прогнозирование видео всё чаще рассматривается как путь к обобщающим моделям мира, однако остаётся неясным, обучаются ли эти системы лежащей в основе причинно-следственной структуре или лишь эксплуатируют поверхностные визуальные корреляции для предсказания будущего. Мы представляем CRONOS — основанный на вмешательствах бенчмарк, предназначенный для оценки контрфактической физической согласованности: того, насколько адекватно предсказания модели физических событий реагируют на контролируемые изменения визуального входа, такие как вариации контекста сцены, точки обзора, внешнего вида объекта и категории объекта. Созданный в фотореалистичной среде Unreal Engine, CRONOS обеспечивает контролируемую высококачественную генерацию видео для разнообразных сцен и динамик. В отличие от предыдущих бенчмарков, CRONOS систематически воздействует на четыре ключевых фактора — точку обзора, сцену, категорию объекта и внешний вид объекта, — сохраняя фиксированным тип лежащего в основе физического события, такого как столкновение, окклюзия или падение. Наша оценка недавних открытых генераторов видео выявила существенные сбои в контрфактической физической согласованности: качество предсказания для одного и того же типа физического события зависит от внешнего вида, окружения и, особенно, от изменений точки обзора. CRONOS предоставляет контролируемый и воспроизводимый полигон для диагностики того, как качество генерируемых видео меняется при различных вмешательствах, устанавливая конкретную цель для разработки моделей, работающих согласованно при изменениях множества условий. Набор данных и код доступны на странице нашего проекта.
English
Video prediction is increasingly viewed as a path toward generalizable world models, yet it remains unclear whether these systems learn underlying causal structure or merely exploit superficial visual correlations for future prediction. We introduce CRONOS, an intervention-based benchmark designed to evaluate counterfactual physical consistency: whether a model's predictions of physical events respond appropriately to controlled changes in the visual input, such as variations of scene context, viewpoint, object appearance, and object category. Built in a photorealistic Unreal Engine environment, CRONOS enables controlled, high-fidelity generation of videos across diverse scenes and dynamics. In contrast to previous benchmarks, CRONOS systematically intervenes on four key factors - viewpoint, scene, object category, and object appearance - while keeping the underlying physical event type, such as a collision, occlusion, or fall, fixed. Our evaluation of recent open-source video generators reveals substantial failures in counterfactual physical consistency: prediction quality for the same physical event type is affected by appearance, environment, and, particularly by viewpoint changes. CRONOS provides a controlled and reproducible testbed for diagnosing how the quality of generated videos changes for different interventions, establishing a concrete target for developing models that perform consistently across changes of multiple conditions. The dataset and code are available at our project page.