ChatPaper.aiChatPaper

ReVision : Génération vidéo de haute qualité à faible coût avec modélisation explicite de la physique 3D pour des mouvements et interactions complexes

ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction

April 30, 2025
Auteurs: Qihao Liu, Ju He, Qihang Yu, Liang-Chieh Chen, Alan Yuille
cs.AI

Résumé

Ces dernières années, la génération vidéo a connu des avancées significatives. Cependant, des défis persistent dans la génération de mouvements et d'interactions complexes. Pour relever ces défis, nous présentons ReVision, un framework plug-and-play qui intègre explicitement des connaissances physiques 3D paramétriques dans un modèle de génération vidéo conditionnelle pré-entraîné, améliorant ainsi considérablement sa capacité à générer des vidéos de haute qualité avec des mouvements et des interactions complexes. Plus précisément, ReVision se compose de trois étapes. Tout d'abord, un modèle de diffusion vidéo est utilisé pour générer une vidéo brute. Ensuite, nous extrayons un ensemble de caractéristiques 2D et 3D de cette vidéo brute pour construire une représentation 3D centrée sur les objets, qui est ensuite affinée par notre modèle de priorité physique paramétrique proposé pour produire une séquence de mouvement 3D précise. Enfin, cette séquence de mouvement affinée est réinjectée dans le même modèle de diffusion vidéo comme conditionnement supplémentaire, permettant la génération de vidéos cohérentes en termes de mouvement, même dans des scénarios impliquant des actions et des interactions complexes. Nous validons l'efficacité de notre approche sur Stable Video Diffusion, où ReVision améliore significativement la fidélité et la cohérence des mouvements. Fait remarquable, avec seulement 1,5 milliard de paramètres, il surpasse même un modèle de génération vidéo de pointe avec plus de 13 milliards de paramètres dans la génération de vidéos complexes par une marge substantielle. Nos résultats suggèrent qu'en incorporant des connaissances physiques 3D, même un modèle de diffusion vidéo relativement petit peut générer des mouvements et des interactions complexes avec un plus grand réalisme et une meilleure contrôlabilité, offrant ainsi une solution prometteuse pour la génération de vidéos physiquement plausibles.
English
In recent years, video generation has seen significant advancements. However, challenges still persist in generating complex motions and interactions. To address these challenges, we introduce ReVision, a plug-and-play framework that explicitly integrates parameterized 3D physical knowledge into a pretrained conditional video generation model, significantly enhancing its ability to generate high-quality videos with complex motion and interactions. Specifically, ReVision consists of three stages. First, a video diffusion model is used to generate a coarse video. Next, we extract a set of 2D and 3D features from the coarse video to construct a 3D object-centric representation, which is then refined by our proposed parameterized physical prior model to produce an accurate 3D motion sequence. Finally, this refined motion sequence is fed back into the same video diffusion model as additional conditioning, enabling the generation of motion-consistent videos, even in scenarios involving complex actions and interactions. We validate the effectiveness of our approach on Stable Video Diffusion, where ReVision significantly improves motion fidelity and coherence. Remarkably, with only 1.5B parameters, it even outperforms a state-of-the-art video generation model with over 13B parameters on complex video generation by a substantial margin. Our results suggest that, by incorporating 3D physical knowledge, even a relatively small video diffusion model can generate complex motions and interactions with greater realism and controllability, offering a promising solution for physically plausible video generation.
PDF122May 4, 2025