从一片落叶看见风
Seeing the Wind from a Falling Leaf
November 30, 2025
Autori: Zhiyuan Gao, Jiageng Mao, Hong-Xing Yu, Haozhe Lou, Emily Yue-Ting Jia, Jernej Barbic, Jiajun Wu, Yue Wang
cs.AI
Abstract
Un obiettivo di lunga data nella visione artificiale è modellare i movimenti dai video, mentre le rappresentazioni alla base dei moti, ovvero le interazioni fisiche invisibili che causano la deformazione e lo spostamento degli oggetti, rimangono in gran parte inesplorate. In questo articolo, studiamo come recuperare le forze invisibili da osservazioni visive, ad esempio stimando il campo del vento osservando una foglia che cade a terra. La nostra innovazione chiave è un framework di inverse graphics end-to-end differenziabile, che modella congiuntamente la geometria degli oggetti, le proprietà fisiche e le interazioni direttamente dai video. Attraverso la retropropagazione, il nostro approccio consente il recupero delle rappresentazioni delle forze a partire dai movimenti degli oggetti. Convalidiamo il nostro metodo su scenari sia sintetici che del mondo reale, e i risultati ne dimostrano la capacità di inferire campi di forza plausibili dai video. Inoltre, mostriamo le potenziali applicazioni del nostro approccio, inclusa la generazione e modifica di video basati sulla fisica. Speriamo che il nostro approccio faccia luce sulla comprensione e modellazione del processo fisico dietro i pixel, colmando il divario tra visione e fisica. Per ulteriori risultati video, consultare la nostra {pagina del progetto} all'indirizzo https://chaoren2357.github.io/seeingthewind/.
English
A longstanding goal in computer vision is to model motions from videos, while the representations behind motions, i.e. the invisible physical interactions that cause objects to deform and move, remain largely unexplored. In this paper, we study how to recover the invisible forces from visual observations, e.g., estimating the wind field by observing a leaf falling to the ground. Our key innovation is an end-to-end differentiable inverse graphics framework, which jointly models object geometry, physical properties, and interactions directly from videos. Through backpropagation, our approach enables the recovery of force representations from object motions. We validate our method on both synthetic and real-world scenarios, and the results demonstrate its ability to infer plausible force fields from videos. Furthermore, we show the potential applications of our approach, including physics-based video generation and editing. We hope our approach sheds light on understanding and modeling the physical process behind pixels, bridging the gap between vision and physics. Please check more video results in our https://chaoren2357.github.io/seeingthewind/{project page}.