Viendo el Viento en una Hoja que Cae
Seeing the Wind from a Falling Leaf
November 30, 2025
Autores: Zhiyuan Gao, Jiageng Mao, Hong-Xing Yu, Haozhe Lou, Emily Yue-Ting Jia, Jernej Barbic, Jiajun Wu, Yue Wang
cs.AI
Resumen
Un objetivo de larga data en visión por computadora es modelar movimientos a partir de vídeos, mientras que las representaciones subyacentes a estos movimientos, es decir, las interacciones físicas invisibles que causan que los objetos se deformen y muevan, permanecen en gran medida inexploradas. En este artículo, estudiamos cómo recuperar las fuerzas invisibles a partir de observaciones visuales, por ejemplo, estimar el campo de viento observando una hoja caer al suelo. Nuestra innovación clave es un marco de gráficos inversos diferenciable de extremo a extremo, que modela conjuntamente la geometría del objeto, las propiedades físicas y las interacciones directamente a partir de vídeos. A través de la retropropagación, nuestro enfoque permite la recuperación de representaciones de fuerza a partir de los movimientos de los objetos. Validamos nuestro método en escenarios tanto sintéticos como del mundo real, y los resultados demuestran su capacidad para inferir campos de fuerza plausibles a partir de vídeos. Además, mostramos las aplicaciones potenciales de nuestro enfoque, incluyendo la generación y edición de vídeos basada en física. Esperamos que nuestro enfoque arroje luz sobre la comprensión y modelado del proceso físico detrás de los píxeles, tendiendo un puente entre la visión y la física. Por favor, consulte más resultados en vídeo en nuestra {página del proyecto} https://chaoren2357.github.io/seeingthewind/.
English
A longstanding goal in computer vision is to model motions from videos, while the representations behind motions, i.e. the invisible physical interactions that cause objects to deform and move, remain largely unexplored. In this paper, we study how to recover the invisible forces from visual observations, e.g., estimating the wind field by observing a leaf falling to the ground. Our key innovation is an end-to-end differentiable inverse graphics framework, which jointly models object geometry, physical properties, and interactions directly from videos. Through backpropagation, our approach enables the recovery of force representations from object motions. We validate our method on both synthetic and real-world scenarios, and the results demonstrate its ability to infer plausible force fields from videos. Furthermore, we show the potential applications of our approach, including physics-based video generation and editing. We hope our approach sheds light on understanding and modeling the physical process behind pixels, bridging the gap between vision and physics. Please check more video results in our https://chaoren2357.github.io/seeingthewind/{project page}.