ChatPaper.aiChatPaper

Den Wind im fallenden Blatt sehen

Seeing the Wind from a Falling Leaf

November 30, 2025
papers.authors: Zhiyuan Gao, Jiageng Mao, Hong-Xing Yu, Haozhe Lou, Emily Yue-Ting Jia, Jernej Barbic, Jiajun Wu, Yue Wang
cs.AI

papers.abstract

Ein langjähriges Ziel in der Computer Vision ist die Modellierung von Bewegungen aus Videos, während die den Bewegungen zugrundeliegenden Repräsentationen – also die unsichtbaren physikalischen Wechselwirkungen, die Objekte verformen und bewegen – weitgehend unerforscht bleiben. In dieser Arbeit untersuchen wir, wie unsichtbare Kräfte aus visuellen Beobachtungen abgeleitet werden können, beispielsweise die Schätzung eines Windfeldes durch die Beobachtung eines zu Boden fallenden Blattes. Unsere zentrale Innovation ist ein end-to-end differenzierbarer Inverse-Graphics-Rahmen, der Objektgeometrie, physikalische Eigenschaften und Wechselwirkungen direkt aus Videos gemeinsam modelliert. Durch Backpropagation ermöglicht unser Ansatz die Wiederherstellung von Kraftrepräsentationen aus Objektbewegungen. Wir validieren unsere Methode anhand synthetischer und realer Szenarien, und die Ergebnisse demonstrieren ihre Fähigkeit, plausible Kraftfelder aus Videos abzuleiten. Darüber hinaus zeigen wir die potenziellen Anwendungen unseres Ansatzes, einschließlich physikbasierter Videogenerierung und -bearbeitung. Wir hoffen, dass unser Ansatz das Verständnis und die Modellierung der physikalischen Prozesse hinter den Pixeln fördert und so die Lücke zwischen Vision und Physik schließt. Weitere Videoergebnisse finden Sie auf unserer {Projektseite}: https://chaoren2357.github.io/seeingthewind/.
English
A longstanding goal in computer vision is to model motions from videos, while the representations behind motions, i.e. the invisible physical interactions that cause objects to deform and move, remain largely unexplored. In this paper, we study how to recover the invisible forces from visual observations, e.g., estimating the wind field by observing a leaf falling to the ground. Our key innovation is an end-to-end differentiable inverse graphics framework, which jointly models object geometry, physical properties, and interactions directly from videos. Through backpropagation, our approach enables the recovery of force representations from object motions. We validate our method on both synthetic and real-world scenarios, and the results demonstrate its ability to infer plausible force fields from videos. Furthermore, we show the potential applications of our approach, including physics-based video generation and editing. We hope our approach sheds light on understanding and modeling the physical process behind pixels, bridging the gap between vision and physics. Please check more video results in our https://chaoren2357.github.io/seeingthewind/{project page}.
PDF21December 3, 2025