Voir le vent dans une feuille qui tombe
Seeing the Wind from a Falling Leaf
November 30, 2025
papers.authors: Zhiyuan Gao, Jiageng Mao, Hong-Xing Yu, Haozhe Lou, Emily Yue-Ting Jia, Jernej Barbic, Jiajun Wu, Yue Wang
cs.AI
papers.abstract
Un objectif de longue date en vision par ordinateur est de modéliser les mouvements à partir de vidéos, tandis que les représentations sous-jacentes à ces mouvements, c'est-à-dire les interactions physiques invisibles qui provoquent la déformation et le déplacement des objets, restent largement inexplorées. Dans cet article, nous étudions comment retrouver les forces invisibles à partir d'observations visuelles, par exemple, estimer le champ de vent en observant une feuille tomber au sol. Notre innovation clé est un cadre d'inverse rendering différentiable de bout en bout, qui modélise conjointement la géométrie des objets, les propriétés physiques et les interactions directement à partir des vidéos. Grâce à la rétropropagation, notre approche permet la reconstruction des représentations de forces à partir des mouvements des objets. Nous validons notre méthode sur des scénarios synthétiques et réels, et les résultats démontrent sa capacité à déduire des champs de force plausibles à partir de vidéos. De plus, nous montrons les applications potentielles de notre approche, incluant la génération et l'édition de vidéos basées sur la physique. Nous espérons que notre approche éclaire la compréhension et la modélisation des processus physiques derrière les pixels, en comblant le fossé entre la vision et la physique. Veuillez consulter davantage de résultats vidéo sur notre {page de projet} https://chaoren2357.github.io/seeingthewind/.
English
A longstanding goal in computer vision is to model motions from videos, while the representations behind motions, i.e. the invisible physical interactions that cause objects to deform and move, remain largely unexplored. In this paper, we study how to recover the invisible forces from visual observations, e.g., estimating the wind field by observing a leaf falling to the ground. Our key innovation is an end-to-end differentiable inverse graphics framework, which jointly models object geometry, physical properties, and interactions directly from videos. Through backpropagation, our approach enables the recovery of force representations from object motions. We validate our method on both synthetic and real-world scenarios, and the results demonstrate its ability to infer plausible force fields from videos. Furthermore, we show the potential applications of our approach, including physics-based video generation and editing. We hope our approach sheds light on understanding and modeling the physical process behind pixels, bridging the gap between vision and physics. Please check more video results in our https://chaoren2357.github.io/seeingthewind/{project page}.