На сколько далеко находится генерация видео от модели мира: перспектива физических законов

How Far is Video Generation from World Model: A Physical Law Perspective

November 4, 2024
Авторы: Bingyi Kang, Yang Yue, Rui Lu, Zhijie Lin, Yang Zhao, Kaixin Wang, Gao Huang, Jiashi Feng
cs.AI

Аннотация

Sora от OpenAI подчеркивает потенциал генерации видео для разработки мировых моделей, соблюдающих основные физические законы. Однако способность моделей генерации видео открывать такие законы исключительно на основе визуальных данных без человеческих априорных знаний может быть поставлена под сомнение. Мировая модель, которая учится истинному закону, должна давать прогнозы, устойчивые к нюансам, и правильно экстраполировать на невиденные сценарии. В данной работе мы оцениваем три ключевых сценария: внутри распределения, вне распределения и комбинаторную обобщаемость. Мы разработали 2D симуляционную платформу для движения объектов и столкновений, чтобы генерировать видео детерминированно, управляемые одним или несколькими законами классической механики. Это обеспечивает неограниченное количество данных для экспериментов крупного масштаба и позволяет количественно оценить, соблюдают ли сгенерированные видео физические законы. Мы обучили модели генерации видео на основе диффузии предсказывать движения объектов на основе начальных кадров. Наши эксперименты по масштабированию показывают идеальную обобщаемость в пределах распределения, измеримое поведение масштабирования для комбинаторной обобщаемости, но неудачу в сценариях вне распределения. Дополнительные эксперименты раскрывают два ключевых аспекта обобщающих механизмов этих моделей: (1) модели не могут абстрагировать общие физические правила и вместо этого проявляют поведение "на основе случая", т.е. имитируют ближайший обучающий пример; (2) при обобщении на новые случаи модели при обращении к обучающим данным придают приоритет различным факторам: цвет > размер > скорость > форма. Наше исследование предполагает, что только масштабирование недостаточно для того, чтобы модели генерации видео раскрывали основные физические законы, несмотря на его роль в общем успехе Sora. Посмотрите нашу страницу проекта по ссылке https://phyworld.github.io
English
OpenAI's Sora highlights the potential of video generation for developing world models that adhere to fundamental physical laws. However, the ability of video generation models to discover such laws purely from visual data without human priors can be questioned. A world model learning the true law should give predictions robust to nuances and correctly extrapolate on unseen scenarios. In this work, we evaluate across three key scenarios: in-distribution, out-of-distribution, and combinatorial generalization. We developed a 2D simulation testbed for object movement and collisions to generate videos deterministically governed by one or more classical mechanics laws. This provides an unlimited supply of data for large-scale experimentation and enables quantitative evaluation of whether the generated videos adhere to physical laws. We trained diffusion-based video generation models to predict object movements based on initial frames. Our scaling experiments show perfect generalization within the distribution, measurable scaling behavior for combinatorial generalization, but failure in out-of-distribution scenarios. Further experiments reveal two key insights about the generalization mechanisms of these models: (1) the models fail to abstract general physical rules and instead exhibit "case-based" generalization behavior, i.e., mimicking the closest training example; (2) when generalizing to new cases, models are observed to prioritize different factors when referencing training data: color > size > velocity > shape. Our study suggests that scaling alone is insufficient for video generation models to uncover fundamental physical laws, despite its role in Sora's broader success. See our project page at https://phyworld.github.io

Summary

AI-Generated Summary

PDF362November 13, 2024