L'image comme une IMU : Estimation du mouvement de la caméra à partir d'une seule image floue due au mouvement
Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image
March 21, 2025
Auteurs: Jerred Chen, Ronald Clark
cs.AI
Résumé
Dans de nombreuses applications robotiques et de réalité virtuelle/augmentée, les mouvements rapides de la caméra entraînent un niveau élevé de flou de mouvement, ce qui fait échouer les méthodes existantes d'estimation de la pose de la caméra. Dans ce travail, nous proposons un nouveau cadre qui exploite le flou de mouvement comme un indice riche pour l'estimation du mouvement, plutôt que de le traiter comme un artefact indésirable. Notre approche fonctionne en prédisant un champ de flux de mouvement dense et une carte de profondeur monoculaire directement à partir d'une seule image floue due au mouvement. Nous récupérons ensuite la vitesse instantanée de la caméra en résolvant un problème de moindres carrés linéaires sous l'hypothèse de petits mouvements. En essence, notre méthode produit une mesure similaire à celle d'un IMU qui capture de manière robuste les mouvements rapides et agressifs de la caméra. Pour entraîner notre modèle, nous construisons un jeu de données à grande échelle avec un flou de mouvement synthétique réaliste dérivé de ScanNet++v2 et affinons davantage notre modèle en l'entraînant de bout en bout sur des données réelles à l'aide de notre pipeline entièrement différentiable. Des évaluations approfondies sur des benchmarks du monde réel démontrent que notre méthode atteint des estimations de vitesse angulaire et de translation de pointe, surpassant les méthodes actuelles comme MASt3R et COLMAP.
English
In many robotics and VR/AR applications, fast camera motions cause a high
level of motion blur, causing existing camera pose estimation methods to fail.
In this work, we propose a novel framework that leverages motion blur as a rich
cue for motion estimation rather than treating it as an unwanted artifact. Our
approach works by predicting a dense motion flow field and a monocular depth
map directly from a single motion-blurred image. We then recover the
instantaneous camera velocity by solving a linear least squares problem under
the small motion assumption. In essence, our method produces an IMU-like
measurement that robustly captures fast and aggressive camera movements. To
train our model, we construct a large-scale dataset with realistic synthetic
motion blur derived from ScanNet++v2 and further refine our model by training
end-to-end on real data using our fully differentiable pipeline. Extensive
evaluations on real-world benchmarks demonstrate that our method achieves
state-of-the-art angular and translational velocity estimates, outperforming
current methods like MASt3R and COLMAP.Summary
AI-Generated Summary