Minimalistische visuelle Inertialodometrie

Zusammenfassung

Die visuell-inertiale Odometrie (VIO), die für die Navigation mobiler Roboter von entscheidender Bedeutung ist, verwendet Kameras mit einer großen Anzahl von Pixeln. Die Aufnahme und Verarbeitung von Kamerabildern erfordert erhebliche Ressourcen. Diese Arbeit stellt einen minimalistischen Ansatz für die planare Odometrie vor und zeigt, dass lediglich vier visuelle Messungen und eine IMU eine robuste Bewegungsschätzung für differentiell angetriebene Roboter ermöglichen. Unsere wesentliche Erkenntnis ist, dass vier nach unten gerichtete Fotodioden, die die Umgebung durch optische Gabor-Masken erfassen, Signale erzeugen, die die Geschwindigkeit kodieren. Darauf aufbauend optimieren wir gemeinsam die Maskenparameter zusammen mit einem Temporalen Faltungsnetzwerk (TCN) unter Verwendung eines physikalisch fundierten Simulators. Das resultierende Modell dekodiert die Geschwindigkeit aus den vier Messungen der Fotodioden. Die Kombination dieser Schätzwerte mit der Winkelgeschwindigkeit einer IMU liefert eine kontinuierliche planare Trajektorie. Wir validieren unseren Ansatz mit einem Prototypsensor, der auf einem differentiell angetriebenen Roboter montiert ist. In verschiedenen Innen- und Außenbereichen folgt unser System der Referenz-Ground-Truth ohne jegliche reale Feinabstimmung. Unsere Arbeit zeigt, dass minimalistische Sensorik eine effiziente und genaue planare Odometrie ermöglicht.

English

Visual-Inertial Odometry(VIO), which is critical to mobile robot navigation, uses cameras with a large number of pixels. Capturing and processing camera images requires significant resources. This work presents a minimalist approach to planar odometry, demonstrating that just four visual measurements and an IMU can provide robust motion estimation for differential-drive robots. Our key insight is that four downward-facing photodiodes that sense the world through optical Gabor masks produce signals that encode speed. Based on this, we jointly optimize the mask parameters alongside a Temporal Convolutional Network (TCN) using a physically-grounded simulator. The resulting model decodes speed from just the four measurements produced by the photodiodes. Pairing these estimates with the angular speed from an IMU yields a continuous planar trajectory. We validate our approach with a prototype sensor mounted on a differential drive robot. Across diverse indoor and outdoor terrains, our system closely tracks the reference ground truth without any real-world fine-tuning. Our work shows that minimalist sensing enables efficient and accurate planar odometry.