Imagem como uma IMU: Estimando o Movimento da Câmera a partir de uma Única Imagem com Desfoque de Movimento

Resumo

Em muitas aplicações de robótica e realidade virtual/aumentada (VR/AR), movimentos rápidos da câmera causam um alto nível de desfoque de movimento, fazendo com que os métodos existentes de estimativa de pose da câmera falhem. Neste trabalho, propomos uma nova abordagem que utiliza o desfoque de movimento como uma pista rica para estimativa de movimento, em vez de tratá-lo como um artefato indesejado. Nosso método funciona prevendo um campo de fluxo de movimento denso e um mapa de profundidade monocular diretamente a partir de uma única imagem com desfoque de movimento. Em seguida, recuperamos a velocidade instantânea da câmera resolvendo um problema de mínimos quadrados lineares sob a suposição de pequenos movimentos. Em essência, nosso método produz uma medição semelhante a um IMU que captura de forma robusta movimentos rápidos e agressivos da câmera. Para treinar nosso modelo, construímos um grande conjunto de dados com desfoque de movimento sintético realista derivado do ScanNet++v2 e refinamos ainda mais nosso modelo treinando de ponta a ponta em dados reais usando nosso pipeline totalmente diferenciável. Avaliações extensas em benchmarks do mundo real demonstram que nosso método alcança estimativas de velocidade angular e translacional de última geração, superando métodos atuais como MASt3R e COLMAP.

English

In many robotics and VR/AR applications, fast camera motions cause a high level of motion blur, causing existing camera pose estimation methods to fail. In this work, we propose a novel framework that leverages motion blur as a rich cue for motion estimation rather than treating it as an unwanted artifact. Our approach works by predicting a dense motion flow field and a monocular depth map directly from a single motion-blurred image. We then recover the instantaneous camera velocity by solving a linear least squares problem under the small motion assumption. In essence, our method produces an IMU-like measurement that robustly captures fast and aggressive camera movements. To train our model, we construct a large-scale dataset with realistic synthetic motion blur derived from ScanNet++v2 and further refine our model by training end-to-end on real data using our fully differentiable pipeline. Extensive evaluations on real-world benchmarks demonstrate that our method achieves state-of-the-art angular and translational velocity estimates, outperforming current methods like MASt3R and COLMAP.

Imagem como uma IMU: Estimando o Movimento da Câmera a partir de uma Única Imagem com Desfoque de Movimento

Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image

Resumo

Support