落ち葉から風を見る
Seeing the Wind from a Falling Leaf
November 30, 2025
著者: Zhiyuan Gao, Jiageng Mao, Hong-Xing Yu, Haozhe Lou, Emily Yue-Ting Jia, Jernej Barbic, Jiajun Wu, Yue Wang
cs.AI
要旨
コンピュータビジョンにおける長年の課題は、ビデオから動きをモデル化することですが、動きの背後にある表現、すなわち物体を変形・移動させる目に見えない物理的相互作用については、ほとんど研究が進んでいません。本論文では、視覚的観察から目に見えない力を復元する方法、例えば、地面に落ちる葉を観察して風の場を推定する方法を研究します。我々の重要な革新は、ビデオから直接、物体の形状、物理的特性、および相互作用を共同でモデル化する、エンドツーエンドの微分可能な逆グラフィックスフレームワークです。バックプロパゲーションを通じて、本手法は物体の動きから力の表現を復元することを可能にします。合成および実世界のシナリオで本手法を検証し、ビデオから妥当な力場を推論できることを実証します。さらに、物理ベースのビデオ生成や編集を含む、本手法の潜在的な応用例を示します。本アプローチが、ピクセルの背後にある物理プロセスの理解とモデル化に光を当て、視覚と物理学の間のギャップを埋める一助となることを期待します。より多くのビデオ結果はプロジェクトページ(https://chaoren2357.github.io/seeingthewind/)でご確認ください。
English
A longstanding goal in computer vision is to model motions from videos, while the representations behind motions, i.e. the invisible physical interactions that cause objects to deform and move, remain largely unexplored. In this paper, we study how to recover the invisible forces from visual observations, e.g., estimating the wind field by observing a leaf falling to the ground. Our key innovation is an end-to-end differentiable inverse graphics framework, which jointly models object geometry, physical properties, and interactions directly from videos. Through backpropagation, our approach enables the recovery of force representations from object motions. We validate our method on both synthetic and real-world scenarios, and the results demonstrate its ability to infer plausible force fields from videos. Furthermore, we show the potential applications of our approach, including physics-based video generation and editing. We hope our approach sheds light on understanding and modeling the physical process behind pixels, bridging the gap between vision and physics. Please check more video results in our https://chaoren2357.github.io/seeingthewind/{project page}.