Quão Longe Está a Geração de Vídeo do Modelo Mundial: Uma Perspectiva das Leis Físicas
How Far is Video Generation from World Model: A Physical Law Perspective
November 4, 2024
Autores: Bingyi Kang, Yang Yue, Rui Lu, Zhijie Lin, Yang Zhao, Kaixin Wang, Gao Huang, Jiashi Feng
cs.AI
Resumo
O Sora da OpenAI destaca o potencial da geração de vídeo para o desenvolvimento de modelos de mundo que seguem leis físicas fundamentais. No entanto, a capacidade dos modelos de geração de vídeo de descobrir tais leis puramente a partir de dados visuais sem preconceitos humanos pode ser questionada. Um modelo de mundo que aprende a verdadeira lei deve fornecer previsões robustas a nuances e extrapolar corretamente cenários não vistos. Neste trabalho, avaliamos três cenários-chave: em distribuição, fora de distribuição e generalização combinatorial. Desenvolvemos um ambiente de teste de simulação 2D para movimento de objetos e colisões para gerar vídeos deterministicamente governados por uma ou mais leis de mecânica clássica. Isso fornece um suprimento ilimitado de dados para experimentação em larga escala e possibilita a avaliação quantitativa de se os vídeos gerados seguem leis físicas. Treinamos modelos de geração de vídeo baseados em difusão para prever movimentos de objetos com base em quadros iniciais. Nossos experimentos de escalonamento mostram generalização perfeita dentro da distribuição, comportamento de escalonamento mensurável para generalização combinatorial, mas falha em cenários fora da distribuição. Experimentos adicionais revelam duas percepções-chave sobre os mecanismos de generalização desses modelos: (1) os modelos falham em abstrair regras físicas gerais e, em vez disso, exibem um comportamento de generalização "baseado em casos", ou seja, imitando o exemplo de treinamento mais próximo; (2) ao generalizar para novos casos, os modelos são observados priorizando diferentes fatores ao fazer referência aos dados de treinamento: cor > tamanho > velocidade > forma. Nosso estudo sugere que o escalonamento por si só é insuficiente para que os modelos de geração de vídeo descubram leis físicas fundamentais, apesar de seu papel no sucesso mais amplo do Sora. Consulte nossa página do projeto em https://phyworld.github.io
English
OpenAI's Sora highlights the potential of video generation for developing
world models that adhere to fundamental physical laws. However, the ability of
video generation models to discover such laws purely from visual data without
human priors can be questioned. A world model learning the true law should give
predictions robust to nuances and correctly extrapolate on unseen scenarios. In
this work, we evaluate across three key scenarios: in-distribution,
out-of-distribution, and combinatorial generalization. We developed a 2D
simulation testbed for object movement and collisions to generate videos
deterministically governed by one or more classical mechanics laws. This
provides an unlimited supply of data for large-scale experimentation and
enables quantitative evaluation of whether the generated videos adhere to
physical laws. We trained diffusion-based video generation models to predict
object movements based on initial frames. Our scaling experiments show perfect
generalization within the distribution, measurable scaling behavior for
combinatorial generalization, but failure in out-of-distribution scenarios.
Further experiments reveal two key insights about the generalization mechanisms
of these models: (1) the models fail to abstract general physical rules and
instead exhibit "case-based" generalization behavior, i.e., mimicking the
closest training example; (2) when generalizing to new cases, models are
observed to prioritize different factors when referencing training data: color
> size > velocity > shape. Our study suggests that scaling alone is
insufficient for video generation models to uncover fundamental physical laws,
despite its role in Sora's broader success. See our project page at
https://phyworld.github.io