ReVision: Geração de Vídeos de Alta Qualidade e Baixo Custo com Modelagem Explícita de Física 3D para Movimentos e Interações Complexas

Resumo

Nos últimos anos, a geração de vídeos tem apresentado avanços significativos. No entanto, desafios ainda persistem na geração de movimentos e interações complexos. Para enfrentar esses desafios, apresentamos o ReVision, uma estrutura plug-and-play que integra explicitamente conhecimento físico 3D parametrizado em um modelo pré-treinado de geração condicional de vídeos, melhorando significativamente sua capacidade de gerar vídeos de alta qualidade com movimentos e interações complexos. Especificamente, o ReVision consiste em três etapas. Primeiro, um modelo de difusão de vídeo é usado para gerar um vídeo preliminar. Em seguida, extraímos um conjunto de características 2D e 3D do vídeo preliminar para construir uma representação 3D centrada em objetos, que é então refinada pelo nosso modelo de prior físico parametrizado proposto para produzir uma sequência de movimento 3D precisa. Por fim, essa sequência de movimento refinada é realimentada no mesmo modelo de difusão de vídeo como condicionamento adicional, permitindo a geração de vídeos consistentes em movimento, mesmo em cenários envolvendo ações e interações complexas. Validamos a eficácia da nossa abordagem no Stable Video Diffusion, onde o ReVision melhora significativamente a fidelidade e a coerência do movimento. Notavelmente, com apenas 1,5 bilhão de parâmetros, ele supera até mesmo um modelo de geração de vídeos state-of-the-art com mais de 13 bilhões de parâmetros na geração de vídeos complexos por uma margem substancial. Nossos resultados sugerem que, ao incorporar conhecimento físico 3D, mesmo um modelo de difusão de vídeo relativamente pequeno pode gerar movimentos e interações complexos com maior realismo e controlabilidade, oferecendo uma solução promissora para a geração de vídeos fisicamente plausíveis.

English

In recent years, video generation has seen significant advancements. However, challenges still persist in generating complex motions and interactions. To address these challenges, we introduce ReVision, a plug-and-play framework that explicitly integrates parameterized 3D physical knowledge into a pretrained conditional video generation model, significantly enhancing its ability to generate high-quality videos with complex motion and interactions. Specifically, ReVision consists of three stages. First, a video diffusion model is used to generate a coarse video. Next, we extract a set of 2D and 3D features from the coarse video to construct a 3D object-centric representation, which is then refined by our proposed parameterized physical prior model to produce an accurate 3D motion sequence. Finally, this refined motion sequence is fed back into the same video diffusion model as additional conditioning, enabling the generation of motion-consistent videos, even in scenarios involving complex actions and interactions. We validate the effectiveness of our approach on Stable Video Diffusion, where ReVision significantly improves motion fidelity and coherence. Remarkably, with only 1.5B parameters, it even outperforms a state-of-the-art video generation model with over 13B parameters on complex video generation by a substantial margin. Our results suggest that, by incorporating 3D physical knowledge, even a relatively small video diffusion model can generate complex motions and interactions with greater realism and controllability, offering a promising solution for physically plausible video generation.

ReVision: Geração de Vídeos de Alta Qualidade e Baixo Custo com Modelagem Explícita de Física 3D para Movimentos e Interações Complexas

ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction

Resumo

Support