ReVision: Hochwertige, kostengünstige Videogenerierung mit expliziter 3D-Physikmodellierung für komplexe Bewegungen und Interaktionen

Zusammenfassung

In den letzten Jahren hat die Videogenerierung bedeutende Fortschritte erzielt. Dennoch bestehen weiterhin Herausforderungen bei der Erzeugung komplexer Bewegungen und Interaktionen. Um diese Herausforderungen zu bewältigen, stellen wir ReVision vor, ein Plug-and-Play-Framework, das parametrisiertes 3D-Physikwissen explizit in ein vortrainiertes, bedingtes Videogenerierungsmodell integriert und dessen Fähigkeit zur Erzeugung hochwertiger Videos mit komplexen Bewegungen und Interaktionen erheblich verbessert. Konkret besteht ReVision aus drei Stufen. Zunächst wird ein Video-Diffusionsmodell verwendet, um ein grobes Video zu generieren. Anschließend extrahieren wir eine Reihe von 2D- und 3D-Merkmalen aus dem groben Video, um eine 3D-objektzentrierte Darstellung zu konstruieren, die dann durch unser vorgeschlagenes parametrisiertes physikalisches Prior-Modell verfeinert wird, um eine präzise 3D-Bewegungssequenz zu erzeugen. Schließlich wird diese verfeinerte Bewegungssequenz als zusätzliche Konditionierung in dasselbe Video-Diffusionsmodell zurückgeführt, wodurch die Generierung bewegungskonsistenter Videos ermöglicht wird, selbst in Szenarien mit komplexen Aktionen und Interaktionen. Wir validieren die Wirksamkeit unseres Ansatzes anhand von Stable Video Diffusion, wobei ReVision die Bewegungsfidelität und -kohärenz erheblich verbessert. Bemerkenswerterweise übertrifft es mit nur 1,5 Milliarden Parametern sogar ein modernstes Videogenerierungsmodell mit über 13 Milliarden Parametern bei der komplexen Videogenerierung deutlich. Unsere Ergebnisse deuten darauf hin, dass durch die Einbindung von 3D-Physikwissen selbst ein relativ kleines Video-Diffusionsmodell komplexe Bewegungen und Interaktionen mit größerer Realitätsnähe und Steuerbarkeit erzeugen kann, was eine vielversprechende Lösung für physikalisch plausible Videogenerierung bietet.

English

In recent years, video generation has seen significant advancements. However, challenges still persist in generating complex motions and interactions. To address these challenges, we introduce ReVision, a plug-and-play framework that explicitly integrates parameterized 3D physical knowledge into a pretrained conditional video generation model, significantly enhancing its ability to generate high-quality videos with complex motion and interactions. Specifically, ReVision consists of three stages. First, a video diffusion model is used to generate a coarse video. Next, we extract a set of 2D and 3D features from the coarse video to construct a 3D object-centric representation, which is then refined by our proposed parameterized physical prior model to produce an accurate 3D motion sequence. Finally, this refined motion sequence is fed back into the same video diffusion model as additional conditioning, enabling the generation of motion-consistent videos, even in scenarios involving complex actions and interactions. We validate the effectiveness of our approach on Stable Video Diffusion, where ReVision significantly improves motion fidelity and coherence. Remarkably, with only 1.5B parameters, it even outperforms a state-of-the-art video generation model with over 13B parameters on complex video generation by a substantial margin. Our results suggest that, by incorporating 3D physical knowledge, even a relatively small video diffusion model can generate complex motions and interactions with greater realism and controllability, offering a promising solution for physically plausible video generation.