ChatPaper.aiChatPaper

PhysChoreo: Generación de Vídeo Controlable por Física con Anclaje Semántico Consciente de las Partes

PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding

November 25, 2025
Autores: Haoze Zhang, Tianyu Huang, Zichen Wan, Xiaowei Jin, Hongzhi Zhang, Hui Li, Wangmeng Zuo
cs.AI

Resumen

Si bien los modelos recientes de generación de vídeo han logrado una fidelidad visual significativa, a menudo adolecen de una falta de controlabilidad física explícita y plausibilidad. Para abordar esto, algunos estudios recientes intentaron guiar la generación de vídeo mediante renderizado basado en física. Sin embargo, estos métodos se enfrentan a desafíos inherentes para modelar con precisión propiedades físicas complejas y controlar eficazmente el comportamiento físico resultante en secuencias temporales prolongadas. En este trabajo, presentamos PhysChoreo, un novedoso marco que puede generar vídeos con diversa controlabilidad y realismo físico a partir de una única imagen. Nuestro método consta de dos etapas: primero, estima las propiedades físicas iniciales estáticas de todos los objetos en la imagen mediante una reconstrucción de propiedades físicas consciente de las partes. Luego, mediante una simulación temporalmente instruida y físicamente editable, sintetiza vídeos de alta calidad con comportamientos dinámicos ricos y realismo físico. Los resultados experimentales muestran que PhysChoreo puede generar vídeos con comportamientos ricos y realismo físico, superando a los métodos más avanzados en múltiples métricas de evaluación.
English
While recent video generation models have achieved significant visual fidelity, they often suffer from the lack of explicit physical controllability and plausibility. To address this, some recent studies attempted to guide the video generation with physics-based rendering. However, these methods face inherent challenges in accurately modeling complex physical properties and effectively control ling the resulting physical behavior over extended temporal sequences. In this work, we introduce PhysChoreo, a novel framework that can generate videos with diverse controllability and physical realism from a single image. Our method consists of two stages: first, it estimates the static initial physical properties of all objects in the image through part-aware physical property reconstruction. Then, through temporally instructed and physically editable simulation, it synthesizes high-quality videos with rich dynamic behaviors and physical realism. Experimental results show that PhysChoreo can generate videos with rich behaviors and physical realism, outperforming state-of-the-art methods on multiple evaluation metrics.
PDF42December 1, 2025