Odometria Visual-Inercial Minimalista
Minimalist Visual Inertial Odometry
May 19, 2026
Autores: Francesco Pasti, Jeremy Klotz, Nicola Bellotto, Shree K. Nayar
cs.AI
Resumo
A Odometria Visual-Inercial (VIO), essencial para a navegação de robôs móveis, utiliza câmeras com grande número de pixels. A captura e o processamento de imagens dessas câmeras exigem recursos significativos. Este trabalho apresenta uma abordagem minimalista para odometria planar, demonstrando que apenas quatro medições visuais e uma IMU podem fornecer uma estimativa robusta de movimento para robôs com tração diferencial. Nosso principal insight é que quatro fotodiodos voltados para baixo, que percebem o mundo através de máscaras ópticas de Gabor, geram sinais que codificam a velocidade. Com base nisso, otimizamos conjuntamente os parâmetros da máscara juntamente com uma Rede Convolucional Temporal (TCN) usando um simulador fisicamente fundamentado. O modelo resultante decodifica a velocidade a partir das quatro medições produzidas pelos fotodiodos. Combinando essas estimativas com a velocidade angular de uma IMU, obtém-se uma trajetória planar contínua. Validamos nossa abordagem com um protótipo de sensor montado em um robô de tração diferencial. Em diversos terrenos internos e externos, nosso sistema acompanha de perto a referência de verdade fundamental, sem qualquer ajuste fino no mundo real. Nosso trabalho mostra que a detecção minimalista possibilita uma odometria planar eficiente e precisa.
English
Visual-Inertial Odometry(VIO), which is critical to mobile robot navigation, uses cameras with a large number of pixels. Capturing and processing camera images requires significant resources. This work presents a minimalist approach to planar odometry, demonstrating that just four visual measurements and an IMU can provide robust motion estimation for differential-drive robots. Our key insight is that four downward-facing photodiodes that sense the world through optical Gabor masks produce signals that encode speed. Based on this, we jointly optimize the mask parameters alongside a Temporal Convolutional Network (TCN) using a physically-grounded simulator. The resulting model decodes speed from just the four measurements produced by the photodiodes. Pairing these estimates with the angular speed from an IMU yields a continuous planar trajectory. We validate our approach with a prototype sensor mounted on a differential drive robot. Across diverse indoor and outdoor terrains, our system closely tracks the reference ground truth without any real-world fine-tuning. Our work shows that minimalist sensing enables efficient and accurate planar odometry.