ChatPaper.aiChatPaper

La imagen como una IMU: Estimación del movimiento de la cámara a partir de una única imagen con desenfoque de movimiento

Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image

March 21, 2025
Autores: Jerred Chen, Ronald Clark
cs.AI

Resumen

En muchas aplicaciones de robótica y realidad virtual/aumentada, los movimientos rápidos de la cámara generan un alto nivel de desenfoque por movimiento, lo que hace que los métodos existentes de estimación de la pose de la cámara fallen. En este trabajo, proponemos un marco novedoso que aprovecha el desenfoque por movimiento como una señal rica para la estimación del movimiento, en lugar de tratarlo como un artefacto no deseado. Nuestro enfoque funciona prediciendo un campo de flujo de movimiento denso y un mapa de profundidad monocular directamente a partir de una única imagen con desenfoque por movimiento. Luego, recuperamos la velocidad instantánea de la cámara resolviendo un problema de mínimos cuadrados lineales bajo el supuesto de movimiento pequeño. En esencia, nuestro método produce una medición similar a la de una IMU que captura de manera robusta movimientos rápidos y agresivos de la cámara. Para entrenar nuestro modelo, construimos un conjunto de datos a gran escala con desenfoque por movimiento sintético realista derivado de ScanNet++v2 y refinamos aún más nuestro modelo entrenándolo de extremo a extremo con datos reales utilizando nuestra canalización completamente diferenciable. Evaluaciones exhaustivas en benchmarks del mundo real demuestran que nuestro método logra estimaciones de velocidad angular y traslacional de vanguardia, superando a métodos actuales como MASt3R y COLMAP.
English
In many robotics and VR/AR applications, fast camera motions cause a high level of motion blur, causing existing camera pose estimation methods to fail. In this work, we propose a novel framework that leverages motion blur as a rich cue for motion estimation rather than treating it as an unwanted artifact. Our approach works by predicting a dense motion flow field and a monocular depth map directly from a single motion-blurred image. We then recover the instantaneous camera velocity by solving a linear least squares problem under the small motion assumption. In essence, our method produces an IMU-like measurement that robustly captures fast and aggressive camera movements. To train our model, we construct a large-scale dataset with realistic synthetic motion blur derived from ScanNet++v2 and further refine our model by training end-to-end on real data using our fully differentiable pipeline. Extensive evaluations on real-world benchmarks demonstrate that our method achieves state-of-the-art angular and translational velocity estimates, outperforming current methods like MASt3R and COLMAP.

Summary

AI-Generated Summary

PDF62March 27, 2025