La imagen como una IMU: Estimación del movimiento de la cámara a partir de una única imagen con desenfoque de movimiento
Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image
March 21, 2025
Autores: Jerred Chen, Ronald Clark
cs.AI
Resumen
En muchas aplicaciones de robótica y realidad virtual/aumentada, los movimientos rápidos de la cámara generan un alto nivel de desenfoque por movimiento, lo que hace que los métodos existentes de estimación de la pose de la cámara fallen. En este trabajo, proponemos un marco novedoso que aprovecha el desenfoque por movimiento como una señal rica para la estimación del movimiento, en lugar de tratarlo como un artefacto no deseado. Nuestro enfoque funciona prediciendo un campo de flujo de movimiento denso y un mapa de profundidad monocular directamente a partir de una única imagen con desenfoque por movimiento. Luego, recuperamos la velocidad instantánea de la cámara resolviendo un problema de mínimos cuadrados lineales bajo el supuesto de movimiento pequeño. En esencia, nuestro método produce una medición similar a la de una IMU que captura de manera robusta movimientos rápidos y agresivos de la cámara. Para entrenar nuestro modelo, construimos un conjunto de datos a gran escala con desenfoque por movimiento sintético realista derivado de ScanNet++v2 y refinamos aún más nuestro modelo entrenándolo de extremo a extremo con datos reales utilizando nuestra canalización completamente diferenciable. Evaluaciones exhaustivas en benchmarks del mundo real demuestran que nuestro método logra estimaciones de velocidad angular y traslacional de vanguardia, superando a métodos actuales como MASt3R y COLMAP.
English
In many robotics and VR/AR applications, fast camera motions cause a high
level of motion blur, causing existing camera pose estimation methods to fail.
In this work, we propose a novel framework that leverages motion blur as a rich
cue for motion estimation rather than treating it as an unwanted artifact. Our
approach works by predicting a dense motion flow field and a monocular depth
map directly from a single motion-blurred image. We then recover the
instantaneous camera velocity by solving a linear least squares problem under
the small motion assumption. In essence, our method produces an IMU-like
measurement that robustly captures fast and aggressive camera movements. To
train our model, we construct a large-scale dataset with realistic synthetic
motion blur derived from ScanNet++v2 and further refine our model by training
end-to-end on real data using our fully differentiable pipeline. Extensive
evaluations on real-world benchmarks demonstrate that our method achieves
state-of-the-art angular and translational velocity estimates, outperforming
current methods like MASt3R and COLMAP.Summary
AI-Generated Summary