从一片落叶看见风
Seeing the Wind from a Falling Leaf
November 30, 2025
Auteurs: Zhiyuan Gao, Jiageng Mao, Hong-Xing Yu, Haozhe Lou, Emily Yue-Ting Jia, Jernej Barbic, Jiajun Wu, Yue Wang
cs.AI
Samenvatting
Een lang gekoesterd doel in de computer vision is het modelleren van bewegingen uit video's, terwijl de representaties achter bewegingen, d.w.z. de onzichtbare fysieke interacties die objecten doen vervormen en bewegen, grotendeels onontgonnen terrein blijven. In dit artikel bestuderen we hoe we onzichtbare krachten kunnen herleiden uit visuele waarnemingen, bijvoorbeeld het inschatten van het windveld door de val van een blad naar de grond te observeren. Onze belangrijkste innovatie is een end-to-end differentieerbaar inverse graphics-framework, dat objectgeometrie, fysieke eigenschappen en interacties rechtstreeks uit video's gezamenlijk modelleert. Door middel van backpropagatie maakt onze aanpak het mogelijk krachtrepresentaties te herleiden uit objectbewegingen. We valideren onze methode op zowel synthetische als realistische scenario's, en de resultaten tonen aan dat het plausibele krachtvelden kan afleiden uit video's. Verder tonen we de potentiële toepassingen van onze aanpak, waaronder fysica-gebaseerde videogeneratie en -bewerking. We hopen dat onze aanzet inzicht geeft in het begrijpen en modelleren van het fysieke proces achter pixels, en zo een brug slaat tussen visie en fysica. Bekijk meer videoresultaten op onze {projectpagina}: https://chaoren2357.github.io/seeingthewind/.
English
A longstanding goal in computer vision is to model motions from videos, while the representations behind motions, i.e. the invisible physical interactions that cause objects to deform and move, remain largely unexplored. In this paper, we study how to recover the invisible forces from visual observations, e.g., estimating the wind field by observing a leaf falling to the ground. Our key innovation is an end-to-end differentiable inverse graphics framework, which jointly models object geometry, physical properties, and interactions directly from videos. Through backpropagation, our approach enables the recovery of force representations from object motions. We validate our method on both synthetic and real-world scenarios, and the results demonstrate its ability to infer plausible force fields from videos. Furthermore, we show the potential applications of our approach, including physics-based video generation and editing. We hope our approach sheds light on understanding and modeling the physical process behind pixels, bridging the gap between vision and physics. Please check more video results in our https://chaoren2357.github.io/seeingthewind/{project page}.