ChatPaper.aiChatPaper

PhysChoreo: Physikgesteuerte Videogenerierung mit teilbewusster semantischer Verankerung

PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding

November 25, 2025
papers.authors: Haoze Zhang, Tianyu Huang, Zichen Wan, Xiaowei Jin, Hongzhi Zhang, Hui Li, Wangmeng Zuo
cs.AI

papers.abstract

Während neuere Videogenerierungsmodelle eine bedeutende visuelle Qualität erreicht haben, leiden sie oft unter mangelnder expliziter physikalischer Steuerbarkeit und Plausibilität. Um dies zu adressieren, haben einige aktuelle Studien versucht, die Videogenerierung durch physikbasiertes Rendering zu steuern. Diese Methoden stehen jedoch vor inhärenten Herausforderungen bei der präzisen Modellierung komplexer physikalischer Eigenschaften und der effektiven Steuerung des resultierenden physikalischen Verhaltens über längere Zeitsequenzen. In dieser Arbeit stellen wir PhysChoreo vor, ein neuartiges Framework, das aus einem einzelnen Bild Videos mit vielfältiger Steuerbarkeit und physikalischer Realitätsnähe generieren kann. Unser Verfahren besteht aus zwei Stufen: Zuerst schätzt es die statischen anfänglichen physikalischen Eigenschaften aller Objekte im Bild durch teilbewusste Rekonstruktion physikalischer Eigenschaften. Anschließend synthetisiert es durch zeitlich instruierte und physikalisch editierbare Simulation hochwertige Videos mit reichhaltigem dynamischem Verhalten und physikalischer Realitätsnähe. Experimentelle Ergebnisse zeigen, dass PhysChoreo Videos mit reichhaltigen Verhaltensweisen und physikalischer Realitätsnähe generieren kann und state-of-the-art-Methoden in mehreren Evaluierungsmetriken übertrifft.
English
While recent video generation models have achieved significant visual fidelity, they often suffer from the lack of explicit physical controllability and plausibility. To address this, some recent studies attempted to guide the video generation with physics-based rendering. However, these methods face inherent challenges in accurately modeling complex physical properties and effectively control ling the resulting physical behavior over extended temporal sequences. In this work, we introduce PhysChoreo, a novel framework that can generate videos with diverse controllability and physical realism from a single image. Our method consists of two stages: first, it estimates the static initial physical properties of all objects in the image through part-aware physical property reconstruction. Then, through temporally instructed and physically editable simulation, it synthesizes high-quality videos with rich dynamic behaviors and physical realism. Experimental results show that PhysChoreo can generate videos with rich behaviors and physical realism, outperforming state-of-the-art methods on multiple evaluation metrics.
PDF42December 1, 2025