PhysChoreo: 부분 인식 의미 기반 물리 제어 비디오 생성
PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding
November 25, 2025
저자: Haoze Zhang, Tianyu Huang, Zichen Wan, Xiaowei Jin, Hongzhi Zhang, Hui Li, Wangmeng Zuo
cs.AI
초록
최근 비디오 생성 모델들은 높은 시각적 정확도를 달성했지만, 명시적인 물리적 제어 가능성과 타당성이 부족한 경우가 많습니다. 이를 해결하기 위해 일부 최근 연구에서는 물리 기반 렌더링을 통해 비디오 생성을 유도하려는 시도를 하였습니다. 그러나 이러한 방법들은 복잡한 물리적 속성을 정확하게 모델링하고 장기간 시간 시퀀스에 걸쳐 결과적인 물리적 행동을 효과적으로 제어하는 데 본질적인 어려움에 직면해 있습니다. 본 연구에서는 단일 이미지로부터 다양한 제어 가능성과 물리적 현실감을 갖춘 비디오를 생성할 수 있는 새로운 프레임워크인 PhysChoreo를 소개합니다. 우리의 방법은 두 단계로 구성됩니다: 첫째, 부분 인식 물성 재구성을 통해 이미지 내 모든 객체의 정적 초기 물리적 속성을 추정합니다. 그런 다음, 시간적 지시 및 물리적 편집 가능 시뮬레이션을 통해 풍부한 동적 행동과 물리적 현실감을 지닌 고품질 비디오를 합성합니다. 실험 결과, PhysChoreo는 풍부한 행동과 물리적 현실감을 갖춘 비디오를 생성할 수 있으며, 여러 평가 지표에서 최첨단 방법들을 능가하는 성능을 보여줍니다.
English
While recent video generation models have achieved significant visual fidelity, they often suffer from the lack of explicit physical controllability and plausibility. To address this, some recent studies attempted to guide the video generation with physics-based rendering. However, these methods face inherent challenges in accurately modeling complex physical properties and effectively control ling the resulting physical behavior over extended temporal sequences. In this work, we introduce PhysChoreo, a novel framework that can generate videos with diverse controllability and physical realism from a single image. Our method consists of two stages: first, it estimates the static initial physical properties of all objects in the image through part-aware physical property reconstruction. Then, through temporally instructed and physically editable simulation, it synthesizes high-quality videos with rich dynamic behaviors and physical realism. Experimental results show that PhysChoreo can generate videos with rich behaviors and physical realism, outperforming state-of-the-art methods on multiple evaluation metrics.