ChatPaper.aiChatPaper

К созданию физически правдоподобной генерации видео через планирование с использованием языковых моделей (VLM)

Towards Physically Plausible Video Generation via VLM Planning

March 30, 2025
Авторы: Xindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia
cs.AI

Аннотация

Модели диффузии видео (VDMs) значительно продвинулись в последние годы, позволяя генерировать высокореалистичные видео и привлекая внимание сообщества своим потенциалом в качестве симуляторов мира. Однако, несмотря на их возможности, VDMs часто не способны создавать физически правдоподобные видео из-за присущего им недостатка понимания физики, что приводит к некорректной динамике и последовательности событий. Чтобы устранить это ограничение, мы предлагаем новую двухэтапную структуру генерации видео из изображений, которая явно учитывает физику. На первом этапе мы используем Vision Language Model (VLM) в качестве грубого планировщика движения, интегрируя цепочку рассуждений и физически осознанное мышление для предсказания примерных траекторий/изменений движения, которые приближают реальную физическую динамику, обеспечивая при этом согласованность между кадрами. На втором этапе мы используем предсказанные траектории/изменения движения для управления генерацией видео с помощью VDM. Поскольку предсказанные траектории/изменения движения являются грубыми, во время вывода добавляется шум, чтобы предоставить VDM свободу в генерации движения с более мелкими деталями. Обширные экспериментальные результаты демонстрируют, что наша структура способна создавать физически правдоподобное движение, а сравнительные оценки подчеркивают заметное превосходство нашего подхода над существующими методами. Дополнительные видео результаты доступны на нашей странице проекта: https://madaoer.github.io/projects/physically_plausible_video_generation.
English
Video diffusion models (VDMs) have advanced significantly in recent years, enabling the generation of highly realistic videos and drawing the attention of the community in their potential as world simulators. However, despite their capabilities, VDMs often fail to produce physically plausible videos due to an inherent lack of understanding of physics, resulting in incorrect dynamics and event sequences. To address this limitation, we propose a novel two-stage image-to-video generation framework that explicitly incorporates physics. In the first stage, we employ a Vision Language Model (VLM) as a coarse-grained motion planner, integrating chain-of-thought and physics-aware reasoning to predict a rough motion trajectories/changes that approximate real-world physical dynamics while ensuring the inter-frame consistency. In the second stage, we use the predicted motion trajectories/changes to guide the video generation of a VDM. As the predicted motion trajectories/changes are rough, noise is added during inference to provide freedom to the VDM in generating motion with more fine details. Extensive experimental results demonstrate that our framework can produce physically plausible motion, and comparative evaluations highlight the notable superiority of our approach over existing methods. More video results are available on our Project Page: https://madaoer.github.io/projects/physically_plausible_video_generation.

Summary

AI-Generated Summary

PDF393April 3, 2025