PhysChoreo: Generazione di Video Controllati dalla Fisica con Ancoraggio Semantico Parte-Consapevole
PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding
November 25, 2025
Autori: Haoze Zhang, Tianyu Huang, Zichen Wan, Xiaowei Jin, Hongzhi Zhang, Hui Li, Wangmeng Zuo
cs.AI
Abstract
Sebbene i recenti modelli di generazione video abbiano raggiunto una significativa fedeltà visiva, spesso soffrono della mancanza di un controllo esplicito e di una plausibilità fisica. Per affrontare questo problema, alcuni studi recenti hanno tentato di guidare la generazione video con il rendering basato sulla fisica. Tuttavia, questi metodi incontrano sfide intrinseche nella modellazione accurata di proprietà fisiche complesse e nel controllo efficace del comportamento fisico risultante su sequenze temporali prolungate. In questo lavoro, introduciamo PhysChoreo, un nuovo framework in grado di generare video con diversificata controllabilità e realismo fisico a partire da una singola immagine. Il nostro metodo si compone di due fasi: inizialmente, stima le proprietà fisiche iniziali statiche di tutti gli oggetti nell'immagine attraverso una ricostruzione delle proprietà fisiche consapevole delle parti. Successivamente, mediante una simulazione temporalmente istruita e fisicamente modificabile, sintetizza video di alta qualità con ricchi comportamenti dinamici e realismo fisico. I risultati sperimentali dimostrano che PhysChoreo può generare video con comportamenti ricchi e realismo fisico, superando i metodi allo stato dell'arte su molteplici metriche di valutazione.
English
While recent video generation models have achieved significant visual fidelity, they often suffer from the lack of explicit physical controllability and plausibility. To address this, some recent studies attempted to guide the video generation with physics-based rendering. However, these methods face inherent challenges in accurately modeling complex physical properties and effectively control ling the resulting physical behavior over extended temporal sequences. In this work, we introduce PhysChoreo, a novel framework that can generate videos with diverse controllability and physical realism from a single image. Our method consists of two stages: first, it estimates the static initial physical properties of all objects in the image through part-aware physical property reconstruction. Then, through temporally instructed and physically editable simulation, it synthesizes high-quality videos with rich dynamic behaviors and physical realism. Experimental results show that PhysChoreo can generate videos with rich behaviors and physical realism, outperforming state-of-the-art methods on multiple evaluation metrics.