ReVision: Hochwertige, kostengünstige Videogenerierung mit expliziter 3D-Physikmodellierung für komplexe Bewegungen und Interaktionen
ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction
April 30, 2025
Autoren: Qihao Liu, Ju He, Qihang Yu, Liang-Chieh Chen, Alan Yuille
cs.AI
Zusammenfassung
In den letzten Jahren hat die Videogenerierung bedeutende Fortschritte erzielt. Dennoch bestehen weiterhin Herausforderungen bei der Erzeugung komplexer Bewegungen und Interaktionen. Um diese Herausforderungen zu bewältigen, stellen wir ReVision vor, ein Plug-and-Play-Framework, das parametrisiertes 3D-Physikwissen explizit in ein vortrainiertes, bedingtes Videogenerierungsmodell integriert und dessen Fähigkeit zur Erzeugung hochwertiger Videos mit komplexen Bewegungen und Interaktionen erheblich verbessert. Konkret besteht ReVision aus drei Stufen. Zunächst wird ein Video-Diffusionsmodell verwendet, um ein grobes Video zu generieren. Anschließend extrahieren wir eine Reihe von 2D- und 3D-Merkmalen aus dem groben Video, um eine 3D-objektzentrierte Darstellung zu konstruieren, die dann durch unser vorgeschlagenes parametrisiertes physikalisches Prior-Modell verfeinert wird, um eine präzise 3D-Bewegungssequenz zu erzeugen. Schließlich wird diese verfeinerte Bewegungssequenz als zusätzliche Konditionierung in dasselbe Video-Diffusionsmodell zurückgeführt, wodurch die Generierung bewegungskonsistenter Videos ermöglicht wird, selbst in Szenarien mit komplexen Aktionen und Interaktionen. Wir validieren die Wirksamkeit unseres Ansatzes anhand von Stable Video Diffusion, wobei ReVision die Bewegungsfidelität und -kohärenz erheblich verbessert. Bemerkenswerterweise übertrifft es mit nur 1,5 Milliarden Parametern sogar ein modernstes Videogenerierungsmodell mit über 13 Milliarden Parametern bei der komplexen Videogenerierung deutlich. Unsere Ergebnisse deuten darauf hin, dass durch die Einbindung von 3D-Physikwissen selbst ein relativ kleines Video-Diffusionsmodell komplexe Bewegungen und Interaktionen mit größerer Realitätsnähe und Steuerbarkeit erzeugen kann, was eine vielversprechende Lösung für physikalisch plausible Videogenerierung bietet.
English
In recent years, video generation has seen significant advancements. However,
challenges still persist in generating complex motions and interactions. To
address these challenges, we introduce ReVision, a plug-and-play framework that
explicitly integrates parameterized 3D physical knowledge into a pretrained
conditional video generation model, significantly enhancing its ability to
generate high-quality videos with complex motion and interactions.
Specifically, ReVision consists of three stages. First, a video diffusion model
is used to generate a coarse video. Next, we extract a set of 2D and 3D
features from the coarse video to construct a 3D object-centric representation,
which is then refined by our proposed parameterized physical prior model to
produce an accurate 3D motion sequence. Finally, this refined motion sequence
is fed back into the same video diffusion model as additional conditioning,
enabling the generation of motion-consistent videos, even in scenarios
involving complex actions and interactions. We validate the effectiveness of
our approach on Stable Video Diffusion, where ReVision significantly improves
motion fidelity and coherence. Remarkably, with only 1.5B parameters, it even
outperforms a state-of-the-art video generation model with over 13B parameters
on complex video generation by a substantial margin. Our results suggest that,
by incorporating 3D physical knowledge, even a relatively small video diffusion
model can generate complex motions and interactions with greater realism and
controllability, offering a promising solution for physically plausible video
generation.