ReVision: Geração de Vídeos de Alta Qualidade e Baixo Custo com Modelagem Explícita de Física 3D para Movimentos e Interações Complexas
ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction
April 30, 2025
Autores: Qihao Liu, Ju He, Qihang Yu, Liang-Chieh Chen, Alan Yuille
cs.AI
Resumo
Nos últimos anos, a geração de vídeos tem apresentado avanços significativos. No entanto, desafios ainda persistem na geração de movimentos e interações complexos. Para enfrentar esses desafios, apresentamos o ReVision, uma estrutura plug-and-play que integra explicitamente conhecimento físico 3D parametrizado em um modelo pré-treinado de geração condicional de vídeos, melhorando significativamente sua capacidade de gerar vídeos de alta qualidade com movimentos e interações complexos. Especificamente, o ReVision consiste em três etapas. Primeiro, um modelo de difusão de vídeo é usado para gerar um vídeo preliminar. Em seguida, extraímos um conjunto de características 2D e 3D do vídeo preliminar para construir uma representação 3D centrada em objetos, que é então refinada pelo nosso modelo de prior físico parametrizado proposto para produzir uma sequência de movimento 3D precisa. Por fim, essa sequência de movimento refinada é realimentada no mesmo modelo de difusão de vídeo como condicionamento adicional, permitindo a geração de vídeos consistentes em movimento, mesmo em cenários envolvendo ações e interações complexas. Validamos a eficácia da nossa abordagem no Stable Video Diffusion, onde o ReVision melhora significativamente a fidelidade e a coerência do movimento. Notavelmente, com apenas 1,5 bilhão de parâmetros, ele supera até mesmo um modelo de geração de vídeos state-of-the-art com mais de 13 bilhões de parâmetros na geração de vídeos complexos por uma margem substancial. Nossos resultados sugerem que, ao incorporar conhecimento físico 3D, mesmo um modelo de difusão de vídeo relativamente pequeno pode gerar movimentos e interações complexos com maior realismo e controlabilidade, oferecendo uma solução promissora para a geração de vídeos fisicamente plausíveis.
English
In recent years, video generation has seen significant advancements. However,
challenges still persist in generating complex motions and interactions. To
address these challenges, we introduce ReVision, a plug-and-play framework that
explicitly integrates parameterized 3D physical knowledge into a pretrained
conditional video generation model, significantly enhancing its ability to
generate high-quality videos with complex motion and interactions.
Specifically, ReVision consists of three stages. First, a video diffusion model
is used to generate a coarse video. Next, we extract a set of 2D and 3D
features from the coarse video to construct a 3D object-centric representation,
which is then refined by our proposed parameterized physical prior model to
produce an accurate 3D motion sequence. Finally, this refined motion sequence
is fed back into the same video diffusion model as additional conditioning,
enabling the generation of motion-consistent videos, even in scenarios
involving complex actions and interactions. We validate the effectiveness of
our approach on Stable Video Diffusion, where ReVision significantly improves
motion fidelity and coherence. Remarkably, with only 1.5B parameters, it even
outperforms a state-of-the-art video generation model with over 13B parameters
on complex video generation by a substantial margin. Our results suggest that,
by incorporating 3D physical knowledge, even a relatively small video diffusion
model can generate complex motions and interactions with greater realism and
controllability, offering a promising solution for physically plausible video
generation.