ChatPaper.aiChatPaper

Минималистичная визуально-инерциальная одометрия

Minimalist Visual Inertial Odometry

May 19, 2026
Авторы: Francesco Pasti, Jeremy Klotz, Nicola Bellotto, Shree K. Nayar
cs.AI

Аннотация

Визуально-инерциальная одометрия (VIO), имеющая критическое значение для навигации мобильных роботов, использует камеры с большим количеством пикселей. Захват и обработка изображений с камер требуют значительных ресурсов. В данной работе представлен минималистичный подход к плоской одометрии, демонстрирующий, что всего четыре визуальных измерения и ИНС могут обеспечить надежную оценку движения для роботов с дифференциальным приводом. Наша ключевая идея заключается в том, что четыре обращенных вниз фотодиода, воспринимающие мир через оптические маски Габора, генерируют сигналы, кодирующие скорость. Основываясь на этом, мы совместно оптимизируем параметры масок и временную сверточную сеть (TCN), используя физически обоснованный симулятор. Полученная модель декодирует скорость всего по четырем измерениям, поступающим от фотодиодов. Объединение этих оценок с угловой скоростью от ИНС позволяет получить непрерывную плоскую траекторию. Мы подтверждаем наш подход с помощью прототипа датчика, установленного на роботе с дифференциальным приводом. На различных внутренних и наружных поверхностях наша система точно отслеживает эталонные данные без какой-либо донастройки на реальных данных. Наша работа показывает, что минималистичное сенсорное обеспечение позволяет эффективно и точно выполнять плоскую одометрию.
English
Visual-Inertial Odometry(VIO), which is critical to mobile robot navigation, uses cameras with a large number of pixels. Capturing and processing camera images requires significant resources. This work presents a minimalist approach to planar odometry, demonstrating that just four visual measurements and an IMU can provide robust motion estimation for differential-drive robots. Our key insight is that four downward-facing photodiodes that sense the world through optical Gabor masks produce signals that encode speed. Based on this, we jointly optimize the mask parameters alongside a Temporal Convolutional Network (TCN) using a physically-grounded simulator. The resulting model decodes speed from just the four measurements produced by the photodiodes. Pairing these estimates with the angular speed from an IMU yields a continuous planar trajectory. We validate our approach with a prototype sensor mounted on a differential drive robot. Across diverse indoor and outdoor terrains, our system closely tracks the reference ground truth without any real-world fine-tuning. Our work shows that minimalist sensing enables efficient and accurate planar odometry.