Minimalistische visuele inertiële odometrie
Minimalist Visual Inertial Odometry
May 19, 2026
Auteurs: Francesco Pasti, Jeremy Klotz, Nicola Bellotto, Shree K. Nayar
cs.AI
Samenvatting
Visual-Inertial Odometry (VIO), die cruciaal is voor de navigatie van mobiele robots, maakt gebruik van camera's met een groot aantal pixels. Het vastleggen en verwerken van camerabeelden vereist aanzienlijke middelen. Dit werk presenteert een minimalistische benadering van vlakke odometrie en toont aan dat slechts vier visuele metingen en een IMU robuuste bewegingsschatting kunnen leveren voor robots met differentiële aandrijving. Ons belangrijkste inzicht is dat vier naar beneden gerichte fotodiodes die de wereld waarnemen via optische Gabor-maskers signalen produceren die snelheid coderen. Op basis hiervan optimaliseren we gezamenlijk de maskerparameters samen met een Temporal Convolutional Network (TCN) met behulp van een fysisch onderbouwde simulator. Het resulterende model decodeert snelheid uit slechts de vier metingen die door de fotodiodes worden geproduceerd. Het combineren van deze schattingen met de hoeksnelheid van een IMU levert een continue vlakke baan op. We valideren onze aanpak met een prototypesensor gemonteerd op een robot met differentiële aandrijving. Op diverse binnen- en buitenterreinen volgt ons systeem de referentie-grondwaarheid nauwkeurig zonder enige aanpassing in de echte wereld. Ons werk laat zien dat minimalistische waarneming efficiënte en nauwkeurige vlakke odometrie mogelijk maakt.
English
Visual-Inertial Odometry(VIO), which is critical to mobile robot navigation, uses cameras with a large number of pixels. Capturing and processing camera images requires significant resources. This work presents a minimalist approach to planar odometry, demonstrating that just four visual measurements and an IMU can provide robust motion estimation for differential-drive robots. Our key insight is that four downward-facing photodiodes that sense the world through optical Gabor masks produce signals that encode speed. Based on this, we jointly optimize the mask parameters alongside a Temporal Convolutional Network (TCN) using a physically-grounded simulator. The resulting model decodes speed from just the four measurements produced by the photodiodes. Pairing these estimates with the angular speed from an IMU yields a continuous planar trajectory. We validate our approach with a prototype sensor mounted on a differential drive robot. Across diverse indoor and outdoor terrains, our system closely tracks the reference ground truth without any real-world fine-tuning. Our work shows that minimalist sensing enables efficient and accurate planar odometry.