Odométrie visuo-inertielle minimaliste
Minimalist Visual Inertial Odometry
May 19, 2026
Auteurs: Francesco Pasti, Jeremy Klotz, Nicola Bellotto, Shree K. Nayar
cs.AI
Résumé
Odometrie visuo-inertielle (VIO), essentielle à la navigation des robots mobiles, utilise des caméras dotées d'un grand nombre de pixels. La capture et le traitement des images de caméra nécessitent des ressources importantes. Ce travail présente une approche minimaliste de l'odométrie planaire, démontrant que seulement quatre mesures visuelles et une IMU peuvent fournir une estimation robuste du mouvement pour les robots à entraînement différentiel. Notre idée clé est que quatre photodiodes orientées vers le bas, percevant le monde à travers des masques de Gabor optiques, produisent des signaux qui encodent la vitesse. Sur cette base, nous optimisons conjointement les paramètres du masque avec un réseau convolutif temporel (TCN) en utilisant un simulateur fondé physiquement. Le modèle résultant décode la vitesse à partir des quatre mesures produites par les photodiodes. En associant ces estimations à la vitesse angulaire d'une IMU, on obtient une trajectoire planaire continue. Nous validons notre approche avec un capteur prototype monté sur un robot à entraînement différentiel. Sur divers terrains intérieurs et extérieurs, notre système suit de près la vérité terrain de référence sans aucun réglage fin dans le monde réel. Notre travail montre que la détection minimaliste permet une odométrie planaire efficace et précise.
English
Visual-Inertial Odometry(VIO), which is critical to mobile robot navigation, uses cameras with a large number of pixels. Capturing and processing camera images requires significant resources. This work presents a minimalist approach to planar odometry, demonstrating that just four visual measurements and an IMU can provide robust motion estimation for differential-drive robots. Our key insight is that four downward-facing photodiodes that sense the world through optical Gabor masks produce signals that encode speed. Based on this, we jointly optimize the mask parameters alongside a Temporal Convolutional Network (TCN) using a physically-grounded simulator. The resulting model decodes speed from just the four measurements produced by the photodiodes. Pairing these estimates with the angular speed from an IMU yields a continuous planar trajectory. We validate our approach with a prototype sensor mounted on a differential drive robot. Across diverse indoor and outdoor terrains, our system closely tracks the reference ground truth without any real-world fine-tuning. Our work shows that minimalist sensing enables efficient and accurate planar odometry.