Изображение как IMU: оценка движения камеры по одному размытому изображению
Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image
March 21, 2025
Авторы: Jerred Chen, Ronald Clark
cs.AI
Аннотация
Во многих приложениях робототехники и VR/AR быстрые движения камеры вызывают сильное размытие в движении, что приводит к сбоям существующих методов оценки положения камеры. В данной работе мы предлагаем новый подход, который использует размытие в движении как важный сигнал для оценки движения, а не рассматривает его как нежелательный артефакт. Наш метод работает путем предсказания плотного поля движения и монохромной карты глубины непосредственно из одного изображения с размытием в движении. Затем мы восстанавливаем мгновенную скорость камеры, решая задачу линейного метода наименьших квадратов в предположении малых движений. По сути, наш метод создает измерение, подобное данным IMU, которое надежно фиксирует быстрые и резкие движения камеры. Для обучения нашей модели мы создаем масштабный набор данных с реалистичным синтетическим размытием в движении на основе ScanNet++v2 и дополнительно улучшаем модель, обучая ее на реальных данных с использованием полностью дифференцируемого конвейера. Обширные оценки на реальных тестовых наборах показывают, что наш метод достигает наилучших оценок угловой и поступательной скорости, превосходя современные методы, такие как MASt3R и COLMAP.
English
In many robotics and VR/AR applications, fast camera motions cause a high
level of motion blur, causing existing camera pose estimation methods to fail.
In this work, we propose a novel framework that leverages motion blur as a rich
cue for motion estimation rather than treating it as an unwanted artifact. Our
approach works by predicting a dense motion flow field and a monocular depth
map directly from a single motion-blurred image. We then recover the
instantaneous camera velocity by solving a linear least squares problem under
the small motion assumption. In essence, our method produces an IMU-like
measurement that robustly captures fast and aggressive camera movements. To
train our model, we construct a large-scale dataset with realistic synthetic
motion blur derived from ScanNet++v2 and further refine our model by training
end-to-end on real data using our fully differentiable pipeline. Extensive
evaluations on real-world benchmarks demonstrate that our method achieves
state-of-the-art angular and translational velocity estimates, outperforming
current methods like MASt3R and COLMAP.Summary
AI-Generated Summary