Нейронные ощущения с нейронными полями: Визуально-тактильное восприятие для манипуляций в руке
Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation
December 20, 2023
Авторы: Sudharshan Suresh, Haozhi Qi, Tingfan Wu, Taosha Fan, Luis Pineda, Mike Lambeta, Jitendra Malik, Mrinal Kalakrishnan, Roberto Calandra, Michael Kaess, Joseph Ortiz, Mustafa Mukadam
cs.AI
Аннотация
Для достижения человеческой ловкости роботы должны выводить пространственное восприятие из мультимодальных сенсорных данных, чтобы анализировать контактные взаимодействия. При манипуляции новыми объектами в руке такое пространственное восприятие включает оценку позы и формы объекта. Современные методы восприятия в руке в основном используют зрение и ограничиваются отслеживанием заранее известных объектов. Более того, визуальная окклюзия объектов в руке неизбежна во время манипуляции, что не позволяет текущим системам выходить за пределы задач без окклюзии. Мы объединяем зрение и тактильное восприятие на многофаланговой руке для оценки позы и формы объекта во время манипуляции. Наш метод, NeuralFeels, кодирует геометрию объекта, обучая нейронное поле в реальном времени, и совместно отслеживает его, оптимизируя задачу графа поз. Мы изучаем мультимодальное восприятие в руке в симуляции и реальном мире, взаимодействуя с различными объектами через политику, управляемую проприоцепцией. Наши эксперименты показывают итоговые F-меры реконструкции в 81% и средние отклонения позы в 4,7 мм, которые сокращаются до 2,3 мм при использовании известных CAD-моделей. Кроме того, мы наблюдаем, что при сильной визуальной окклюзии можем достичь улучшения отслеживания до 94% по сравнению с методами, использующими только зрение. Наши результаты демонстрируют, что тактильное восприятие, как минимум, уточняет, а как максимум, устраняет неоднозначность визуальных оценок во время манипуляции в руке. Мы публикуем наш набор данных для оценки из 70 экспериментов, FeelSight, как шаг к созданию эталонных тестов в этой области. Наше нейронное представление, основанное на мультимодальном восприятии, может служить основой для восприятия, способствуя развитию ловкости роботов. Видео можно найти на нашем проектом сайте https://suddhu.github.io/neural-feels/.
English
To achieve human-level dexterity, robots must infer spatial awareness from
multimodal sensing to reason over contact interactions. During in-hand
manipulation of novel objects, such spatial awareness involves estimating the
object's pose and shape. The status quo for in-hand perception primarily
employs vision, and restricts to tracking a priori known objects. Moreover,
visual occlusion of objects in-hand is imminent during manipulation, preventing
current systems to push beyond tasks without occlusion. We combine vision and
touch sensing on a multi-fingered hand to estimate an object's pose and shape
during in-hand manipulation. Our method, NeuralFeels, encodes object geometry
by learning a neural field online and jointly tracks it by optimizing a pose
graph problem. We study multimodal in-hand perception in simulation and the
real-world, interacting with different objects via a proprioception-driven
policy. Our experiments show final reconstruction F-scores of 81% and average
pose drifts of 4.7,mm, further reduced to 2.3,mm with known
CAD models. Additionally, we observe that under heavy visual occlusion we can
achieve up to 94% improvements in tracking compared to vision-only methods.
Our results demonstrate that touch, at the very least, refines and, at the very
best, disambiguates visual estimates during in-hand manipulation. We release
our evaluation dataset of 70 experiments, FeelSight, as a step towards
benchmarking in this domain. Our neural representation driven by multimodal
sensing can serve as a perception backbone towards advancing robot dexterity.
Videos can be found on our project website
https://suddhu.github.io/neural-feels/