ChatPaper.aiChatPaper

PhysChoreo : Génération de vidéos contrôlables par la physique avec ancrage sémantique sensible aux parties

PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding

November 25, 2025
papers.authors: Haoze Zhang, Tianyu Huang, Zichen Wan, Xiaowei Jin, Hongzhi Zhang, Hui Li, Wangmeng Zuo
cs.AI

papers.abstract

Si les modèles récents de génération vidéo ont atteint une fidélité visuelle significative, ils souffrent souvent d'un manque de contrôlabilité physique explicite et de plausibilité. Pour remédier à cela, certaines études récentes ont tenté de guider la génération vidéo par le rendu basé sur la physique. Cependant, ces méthodes rencontrent des difficultés inhérentes pour modéliser avec précision les propriétés physiques complexes et contrôler efficacement le comportement physique résultant sur des séquences temporelles prolongées. Dans ce travail, nous présentons PhysChoreo, un nouveau cadre capable de générer des vidéos avec une contrôlabilité diversifiée et un réalisme physique à partir d'une seule image. Notre méthode se compose de deux étapes : premièrement, elle estime les propriétés physiques initiales statiques de tous les objets dans l'image par une reconstruction des propriétés physiques sensible aux parties. Ensuite, grâce à une simulation temporellement instruite et physiquement éditable, elle synthétise des vidéos de haute qualité avec des comportements dynamiques riches et un réalisme physique. Les résultats expérimentaux montrent que PhysChoreo peut générer des vidéos aux comportements riches et au réalisme physique, surpassant les méthodes de l'état de l'art sur plusieurs métriques d'évaluation.
English
While recent video generation models have achieved significant visual fidelity, they often suffer from the lack of explicit physical controllability and plausibility. To address this, some recent studies attempted to guide the video generation with physics-based rendering. However, these methods face inherent challenges in accurately modeling complex physical properties and effectively control ling the resulting physical behavior over extended temporal sequences. In this work, we introduce PhysChoreo, a novel framework that can generate videos with diverse controllability and physical realism from a single image. Our method consists of two stages: first, it estimates the static initial physical properties of all objects in the image through part-aware physical property reconstruction. Then, through temporally instructed and physically editable simulation, it synthesizes high-quality videos with rich dynamic behaviors and physical realism. Experimental results show that PhysChoreo can generate videos with rich behaviors and physical realism, outperforming state-of-the-art methods on multiple evaluation metrics.
PDF42December 1, 2025