¿Qué tan lejos está la Generación de Video del Modelo Mundial: Una Perspectiva de Ley Física?
How Far is Video Generation from World Model: A Physical Law Perspective
November 4, 2024
Autores: Bingyi Kang, Yang Yue, Rui Lu, Zhijie Lin, Yang Zhao, Kaixin Wang, Gao Huang, Jiashi Feng
cs.AI
Resumen
Sora de OpenAI destaca el potencial de la generación de video para desarrollar modelos del mundo que se adhieran a leyes físicas fundamentales. Sin embargo, se puede cuestionar la capacidad de los modelos de generación de video para descubrir dichas leyes puramente a partir de datos visuales sin preconcepciones humanas. Un modelo del mundo que aprenda la verdadera ley debería ofrecer predicciones robustas a matices y extrapolaciones correctas en escenarios no vistos. En este trabajo, evaluamos a través de tres escenarios clave: en distribución, fuera de distribución y generalización combinatoria. Desarrollamos un banco de pruebas de simulación 2D para el movimiento de objetos y colisiones para generar videos gobernados de manera determinista por una o más leyes de la mecánica clásica. Esto proporciona un suministro ilimitado de datos para experimentación a gran escala y permite una evaluación cuantitativa de si los videos generados se adhieren a las leyes físicas. Entrenamos modelos de generación de video basados en difusión para predecir movimientos de objetos basados en cuadros iniciales. Nuestros experimentos de escalado muestran una generalización perfecta dentro de la distribución, un comportamiento de escalado medible para la generalización combinatoria, pero fallas en escenarios fuera de distribución. Experimentos adicionales revelan dos ideas clave sobre los mecanismos de generalización de estos modelos: (1) los modelos fallan en abstraer reglas físicas generales y en su lugar exhiben un comportamiento de generalización "basado en casos", es decir, imitando el ejemplo de entrenamiento más cercano; (2) al generalizar a nuevos casos, se observa que los modelos priorizan diferentes factores al referenciar datos de entrenamiento: color > tamaño > velocidad > forma. Nuestro estudio sugiere que el escalado por sí solo es insuficiente para que los modelos de generación de video descubran leyes físicas fundamentales, a pesar de su papel en el éxito más amplio de Sora. Consulte nuestra página de proyecto en https://phyworld.github.io
English
OpenAI's Sora highlights the potential of video generation for developing
world models that adhere to fundamental physical laws. However, the ability of
video generation models to discover such laws purely from visual data without
human priors can be questioned. A world model learning the true law should give
predictions robust to nuances and correctly extrapolate on unseen scenarios. In
this work, we evaluate across three key scenarios: in-distribution,
out-of-distribution, and combinatorial generalization. We developed a 2D
simulation testbed for object movement and collisions to generate videos
deterministically governed by one or more classical mechanics laws. This
provides an unlimited supply of data for large-scale experimentation and
enables quantitative evaluation of whether the generated videos adhere to
physical laws. We trained diffusion-based video generation models to predict
object movements based on initial frames. Our scaling experiments show perfect
generalization within the distribution, measurable scaling behavior for
combinatorial generalization, but failure in out-of-distribution scenarios.
Further experiments reveal two key insights about the generalization mechanisms
of these models: (1) the models fail to abstract general physical rules and
instead exhibit "case-based" generalization behavior, i.e., mimicking the
closest training example; (2) when generalizing to new cases, models are
observed to prioritize different factors when referencing training data: color
> size > velocity > shape. Our study suggests that scaling alone is
insufficient for video generation models to uncover fundamental physical laws,
despite its role in Sora's broader success. See our project page at
https://phyworld.github.ioSummary
AI-Generated Summary