ChatPaper.aiChatPaper

从落叶中看见风

Seeing the Wind from a Falling Leaf

November 30, 2025
Autores: Zhiyuan Gao, Jiageng Mao, Hong-Xing Yu, Haozhe Lou, Emily Yue-Ting Jia, Jernej Barbic, Jiajun Wu, Yue Wang
cs.AI

Resumo

Um objetivo de longa data na visão computacional é modelar movimentos a partir de vídeos, enquanto as representações subjacentes a esses movimentos, ou seja, as interações físicas invisíveis que causam a deformação e o deslocamento dos objetos, permanecem em grande parte inexploradas. Neste artigo, estudamos como recuperar forças invisíveis a partir de observações visuais, por exemplo, estimando o campo de vento ao observar uma folha caindo no chão. Nossa principal inovação é uma estrutura de *graphics* inversa de ponta a ponta e diferenciável, que modela conjuntamente a geometria do objeto, propriedades físicas e interações diretamente a partir de vídeos. Por meio da retropropagação, nossa abordagem permite a recuperação de representações de força a partir dos movimentos dos objetos. Validamos nosso método em cenários sintéticos e do mundo real, e os resultados demonstram sua capacidade de inferir campos de força plausíveis a partir de vídeos. Além disso, mostramos as aplicações potenciais da nossa abordagem, incluindo geração e edição de vídeos baseados em física. Esperamos que nossa abordagem contribua para a compreensão e modelagem do processo físico por trás dos pixels, diminuindo a distância entre a visão e a física. Confira mais resultados em vídeo em nossa {página do projeto} https://chaoren2357.github.io/seeingthewind/.
English
A longstanding goal in computer vision is to model motions from videos, while the representations behind motions, i.e. the invisible physical interactions that cause objects to deform and move, remain largely unexplored. In this paper, we study how to recover the invisible forces from visual observations, e.g., estimating the wind field by observing a leaf falling to the ground. Our key innovation is an end-to-end differentiable inverse graphics framework, which jointly models object geometry, physical properties, and interactions directly from videos. Through backpropagation, our approach enables the recovery of force representations from object motions. We validate our method on both synthetic and real-world scenarios, and the results demonstrate its ability to infer plausible force fields from videos. Furthermore, we show the potential applications of our approach, including physics-based video generation and editing. We hope our approach sheds light on understanding and modeling the physical process behind pixels, bridging the gap between vision and physics. Please check more video results in our https://chaoren2357.github.io/seeingthewind/{project page}.
PDF52February 26, 2026