Imagem como uma IMU: Estimando o Movimento da Câmera a partir de uma Única Imagem com Desfoque de Movimento
Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image
March 21, 2025
Autores: Jerred Chen, Ronald Clark
cs.AI
Resumo
Em muitas aplicações de robótica e realidade virtual/aumentada (VR/AR), movimentos rápidos da câmera causam um alto nível de desfoque de movimento, fazendo com que os métodos existentes de estimativa de pose da câmera falhem. Neste trabalho, propomos uma nova abordagem que utiliza o desfoque de movimento como uma pista rica para estimativa de movimento, em vez de tratá-lo como um artefato indesejado. Nosso método funciona prevendo um campo de fluxo de movimento denso e um mapa de profundidade monocular diretamente a partir de uma única imagem com desfoque de movimento. Em seguida, recuperamos a velocidade instantânea da câmera resolvendo um problema de mínimos quadrados lineares sob a suposição de pequenos movimentos. Em essência, nosso método produz uma medição semelhante a um IMU que captura de forma robusta movimentos rápidos e agressivos da câmera. Para treinar nosso modelo, construímos um grande conjunto de dados com desfoque de movimento sintético realista derivado do ScanNet++v2 e refinamos ainda mais nosso modelo treinando de ponta a ponta em dados reais usando nosso pipeline totalmente diferenciável. Avaliações extensas em benchmarks do mundo real demonstram que nosso método alcança estimativas de velocidade angular e translacional de última geração, superando métodos atuais como MASt3R e COLMAP.
English
In many robotics and VR/AR applications, fast camera motions cause a high
level of motion blur, causing existing camera pose estimation methods to fail.
In this work, we propose a novel framework that leverages motion blur as a rich
cue for motion estimation rather than treating it as an unwanted artifact. Our
approach works by predicting a dense motion flow field and a monocular depth
map directly from a single motion-blurred image. We then recover the
instantaneous camera velocity by solving a linear least squares problem under
the small motion assumption. In essence, our method produces an IMU-like
measurement that robustly captures fast and aggressive camera movements. To
train our model, we construct a large-scale dataset with realistic synthetic
motion blur derived from ScanNet++v2 and further refine our model by training
end-to-end on real data using our fully differentiable pipeline. Extensive
evaluations on real-world benchmarks demonstrate that our method achieves
state-of-the-art angular and translational velocity estimates, outperforming
current methods like MASt3R and COLMAP.Summary
AI-Generated Summary