ChatPaper.aiChatPaper

PhysChoreo: Geração de Vídeo Controlada por Física com Ancoragem Semântica Consciente de Partes

PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding

November 25, 2025
Autores: Haoze Zhang, Tianyu Huang, Zichen Wan, Xiaowei Jin, Hongzhi Zhang, Hui Li, Wangmeng Zuo
cs.AI

Resumo

Embora os modelos recentes de geração de vídeo tenham alcançado uma fidelidade visual significativa, eles frequentemente sofrem com a falta de controlabilidade física explícita e plausibilidade. Para resolver isso, alguns estudos recentes tentaram orientar a geração de vídeo com renderização baseada em física. No entanto, esses métodos enfrentam desafios inerentes em modelar com precisão propriedades físicas complexas e controlar efetivamente o comportamento físico resultante ao longo de sequências temporais estendidas. Neste trabalho, introduzimos o PhysChoreo, uma nova estrutura que pode gerar vídeos com diversificada controlabilidade e realismo físico a partir de uma única imagem. Nosso método consiste em dois estágios: primeiro, ele estima as propriedades físicas iniciais estáticas de todos os objetos na imagem através de uma reconstrução de propriedades físicas com consciência de partes. Em seguida, por meio de uma simulação temporalmente instruída e fisicamente editável, ele sintetiza vídeos de alta qualidade com comportamentos dinâmicos ricos e realismo físico. Resultados experimentais mostram que o PhysChoreo pode gerar vídeos com comportamentos ricos e realismo físico, superando métodos state-of-the-art em múltiplas métricas de avaliação.
English
While recent video generation models have achieved significant visual fidelity, they often suffer from the lack of explicit physical controllability and plausibility. To address this, some recent studies attempted to guide the video generation with physics-based rendering. However, these methods face inherent challenges in accurately modeling complex physical properties and effectively control ling the resulting physical behavior over extended temporal sequences. In this work, we introduce PhysChoreo, a novel framework that can generate videos with diverse controllability and physical realism from a single image. Our method consists of two stages: first, it estimates the static initial physical properties of all objects in the image through part-aware physical property reconstruction. Then, through temporally instructed and physically editable simulation, it synthesizes high-quality videos with rich dynamic behaviors and physical realism. Experimental results show that PhysChoreo can generate videos with rich behaviors and physical realism, outperforming state-of-the-art methods on multiple evaluation metrics.
PDF42March 24, 2026