ReVision: Высококачественное и экономичное создание видео с явным 3D-моделированием физики для сложных движений и взаимодействий
ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction
April 30, 2025
Авторы: Qihao Liu, Ju He, Qihang Yu, Liang-Chieh Chen, Alan Yuille
cs.AI
Аннотация
В последние годы генерация видео достигла значительных успехов. Однако проблемы с созданием сложных движений и взаимодействий по-прежнему остаются актуальными. Для решения этих задач мы представляем ReVision — модульную платформу, которая явно интегрирует параметризованные 3D-физические знания в предобученную модель условной генерации видео, значительно улучшая её способность создавать высококачественные видео со сложными движениями и взаимодействиями.
ReVision состоит из трёх этапов. Сначала модель диффузии видео используется для создания чернового видео. Затем из этого видео извлекается набор 2D и 3D-признаков для построения объектно-ориентированного 3D-представления, которое уточняется с помощью предложенной нами модели параметризованного физического приора для получения точной 3D-последовательности движений. Наконец, эта уточнённая последовательность движений возвращается в ту же модель диффузии видео в качестве дополнительного условия, что позволяет генерировать видео с согласованными движениями даже в сценариях, включающих сложные действия и взаимодействия.
Мы подтверждаем эффективность нашего подхода на модели Stable Video Diffusion, где ReVision значительно улучшает точность и согласованность движений. Примечательно, что с всего 1,5 миллиардами параметров он превосходит современную модель генерации видео с более чем 13 миллиардами параметров в создании сложных видео с существенным отрывом. Наши результаты показывают, что, интегрируя 3D-физические знания, даже относительно небольшая модель диффузии видео может генерировать сложные движения и взаимодействия с большей реалистичностью и управляемостью, предлагая перспективное решение для физически правдоподобной генерации видео.
English
In recent years, video generation has seen significant advancements. However,
challenges still persist in generating complex motions and interactions. To
address these challenges, we introduce ReVision, a plug-and-play framework that
explicitly integrates parameterized 3D physical knowledge into a pretrained
conditional video generation model, significantly enhancing its ability to
generate high-quality videos with complex motion and interactions.
Specifically, ReVision consists of three stages. First, a video diffusion model
is used to generate a coarse video. Next, we extract a set of 2D and 3D
features from the coarse video to construct a 3D object-centric representation,
which is then refined by our proposed parameterized physical prior model to
produce an accurate 3D motion sequence. Finally, this refined motion sequence
is fed back into the same video diffusion model as additional conditioning,
enabling the generation of motion-consistent videos, even in scenarios
involving complex actions and interactions. We validate the effectiveness of
our approach on Stable Video Diffusion, where ReVision significantly improves
motion fidelity and coherence. Remarkably, with only 1.5B parameters, it even
outperforms a state-of-the-art video generation model with over 13B parameters
on complex video generation by a substantial margin. Our results suggest that,
by incorporating 3D physical knowledge, even a relatively small video diffusion
model can generate complex motions and interactions with greater realism and
controllability, offering a promising solution for physically plausible video
generation.