ReVision: Generación de videos de alta calidad y bajo costo con modelado explícito de física 3D para movimiento e interacción complejos
ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction
April 30, 2025
Autores: Qihao Liu, Ju He, Qihang Yu, Liang-Chieh Chen, Alan Yuille
cs.AI
Resumen
En los últimos años, la generación de videos ha experimentado avances significativos. Sin embargo, aún persisten desafíos en la generación de movimientos e interacciones complejas. Para abordar estos desafíos, presentamos ReVision, un marco plug-and-play que integra explícitamente conocimiento físico parametrizado en 3D en un modelo preentrenado de generación de videos condicional, mejorando significativamente su capacidad para generar videos de alta calidad con movimientos e interacciones complejas. Específicamente, ReVision consta de tres etapas. Primero, se utiliza un modelo de difusión de video para generar un video preliminar. Luego, extraemos un conjunto de características 2D y 3D del video preliminar para construir una representación centrada en objetos 3D, la cual es refinada por nuestro modelo propuesto de conocimiento físico parametrizado para producir una secuencia de movimiento 3D precisa. Finalmente, esta secuencia de movimiento refinada se retroalimenta al mismo modelo de difusión de video como condicionamiento adicional, permitiendo la generación de videos consistentes en movimiento, incluso en escenarios que involucran acciones e interacciones complejas. Validamos la efectividad de nuestro enfoque en Stable Video Diffusion, donde ReVision mejora significativamente la fidelidad y coherencia del movimiento. Notablemente, con solo 1.500 millones de parámetros, incluso supera a un modelo de generación de video de última generación con más de 13.000 millones de parámetros en la generación de videos complejos por un margen considerable. Nuestros resultados sugieren que, al incorporar conocimiento físico 3D, incluso un modelo de difusión de video relativamente pequeño puede generar movimientos e interacciones complejas con mayor realismo y controlabilidad, ofreciendo una solución prometedora para la generación de videos físicamente plausibles.
English
In recent years, video generation has seen significant advancements. However,
challenges still persist in generating complex motions and interactions. To
address these challenges, we introduce ReVision, a plug-and-play framework that
explicitly integrates parameterized 3D physical knowledge into a pretrained
conditional video generation model, significantly enhancing its ability to
generate high-quality videos with complex motion and interactions.
Specifically, ReVision consists of three stages. First, a video diffusion model
is used to generate a coarse video. Next, we extract a set of 2D and 3D
features from the coarse video to construct a 3D object-centric representation,
which is then refined by our proposed parameterized physical prior model to
produce an accurate 3D motion sequence. Finally, this refined motion sequence
is fed back into the same video diffusion model as additional conditioning,
enabling the generation of motion-consistent videos, even in scenarios
involving complex actions and interactions. We validate the effectiveness of
our approach on Stable Video Diffusion, where ReVision significantly improves
motion fidelity and coherence. Remarkably, with only 1.5B parameters, it even
outperforms a state-of-the-art video generation model with over 13B parameters
on complex video generation by a substantial margin. Our results suggest that,
by incorporating 3D physical knowledge, even a relatively small video diffusion
model can generate complex motions and interactions with greater realism and
controllability, offering a promising solution for physically plausible video
generation.