PhysChoreo: Физически управляемая генерация видео с частично-осознанной семантической привязкой
PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding
November 25, 2025
Авторы: Haoze Zhang, Tianyu Huang, Zichen Wan, Xiaowei Jin, Hongzhi Zhang, Hui Li, Wangmeng Zuo
cs.AI
Аннотация
Хотя современные модели генерации видео достигли значительной визуальной достоверности, они часто страдают от отсутствия явной физической управляемости и правдоподобия. Для решения этой проблемы некоторые недавние исследования предприняли попытки направлять генерацию видео с помощью физически корректного рендеринга. Однако эти методы сталкиваются с фундаментальными трудностями в точном моделировании сложных физических свойств и эффективном управлении результирующим физическим поведением на протяженных временных последовательностях. В данной работе мы представляем PhysChoreo — новую архитектуру, способную генерировать видео с разнообразной управляемостью и физической достоверностью из одного изображения. Наш метод состоит из двух этапов: сначала он оценивает статические начальные физические свойства всех объектов на изображении посредством реконструкции физических свойств с учетом частей. Затем, с помощью временно инстуктируемого и физически редактируемого моделирования, он синтезирует высококачественные видео с богатым динамическим поведением и физической достоверностью. Результаты экспериментов показывают, что PhysChoreo способен генерировать видео с разнообразным поведением и физической реалистичностью, превосходя современные методы по нескольким оценочным метрикам.
English
While recent video generation models have achieved significant visual fidelity, they often suffer from the lack of explicit physical controllability and plausibility. To address this, some recent studies attempted to guide the video generation with physics-based rendering. However, these methods face inherent challenges in accurately modeling complex physical properties and effectively control ling the resulting physical behavior over extended temporal sequences. In this work, we introduce PhysChoreo, a novel framework that can generate videos with diverse controllability and physical realism from a single image. Our method consists of two stages: first, it estimates the static initial physical properties of all objects in the image through part-aware physical property reconstruction. Then, through temporally instructed and physically editable simulation, it synthesizes high-quality videos with rich dynamic behaviors and physical realism. Experimental results show that PhysChoreo can generate videos with rich behaviors and physical realism, outperforming state-of-the-art methods on multiple evaluation metrics.