Odometría visual inercial minimalista
Minimalist Visual Inertial Odometry
May 19, 2026
Autores: Francesco Pasti, Jeremy Klotz, Nicola Bellotto, Shree K. Nayar
cs.AI
Resumen
La Odometría Visual-Inercial (VIO), fundamental para la navegación de robots móviles, emplea cámaras con una gran cantidad de píxeles. Capturar y procesar imágenes de cámara requiere recursos significativos. Este trabajo presenta un enfoque minimalista para la odometría planar, demostrando que solo cuatro mediciones visuales y una IMU pueden proporcionar una estimación de movimiento robusta para robots de tracción diferencial. Nuestra idea clave es que cuatro fotodiodos orientados hacia el suelo, que perciben el entorno a través de máscaras ópticas de Gabor, generan señales que codifican la velocidad. Basándonos en esto, optimizamos conjuntamente los parámetros de las máscaras junto con una Red Convolucional Temporal (TCN) utilizando un simulador fundamentado físicamente. El modelo resultante decodifica la velocidad a partir de las cuatro mediciones producidas por los fotodiodos. Combinar estas estimaciones con la velocidad angular de una IMU proporciona una trayectoria planar continua. Validamos nuestro enfoque con un prototipo de sensor montado en un robot de tracción diferencial. En diversos terrenos interiores y exteriores, nuestro sistema sigue de cerca la referencia de verdad fundamental sin necesidad de ajustes en el mundo real. Nuestro trabajo demuestra que la detección minimalista permite una odometría planar eficiente y precisa.
English
Visual-Inertial Odometry(VIO), which is critical to mobile robot navigation, uses cameras with a large number of pixels. Capturing and processing camera images requires significant resources. This work presents a minimalist approach to planar odometry, demonstrating that just four visual measurements and an IMU can provide robust motion estimation for differential-drive robots. Our key insight is that four downward-facing photodiodes that sense the world through optical Gabor masks produce signals that encode speed. Based on this, we jointly optimize the mask parameters alongside a Temporal Convolutional Network (TCN) using a physically-grounded simulator. The resulting model decodes speed from just the four measurements produced by the photodiodes. Pairing these estimates with the angular speed from an IMU yields a continuous planar trajectory. We validate our approach with a prototype sensor mounted on a differential drive robot. Across diverse indoor and outdoor terrains, our system closely tracks the reference ground truth without any real-world fine-tuning. Our work shows that minimalist sensing enables efficient and accurate planar odometry.