Синхронное тактильно-зрительное восприятие для обучения мультимодальному манипулированию роботов
Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation
December 10, 2025
Авторы: Yuyang Li, Yinghan Chen, Zihang Zhao, Puhao Li, Tengyu Liu, Siyuan Huang, Yixin Zhu
cs.AI
Аннотация
Роботизированное манипулирование требует как богатого мультимодального восприятия, так и эффективных обучающих систем для решения сложных задач в реальном мире. Сенсоры типа «вижу-сквозь-кожу» (STS), объединяющие тактильное и визуальное восприятие, предлагают перспективные возможности сенсорики, в то время как современное имитационное обучение предоставляет мощные инструменты для формирования политик управления. Однако существующие конструкции STS-сенсоров не обеспечивают одновременного мультимодального восприятия и страдают от ненадежного тактильного отслеживания. Более того, интеграция этих богатых мультимодальных сигналов в обучающиеся системы манипулирования остается нерешенной задачей. Мы представляем TacThru — STS-сенсор, обеспечивающий одновременное визуальное восприятие и надежное извлечение тактильных сигналов, и TacThru-UMI — фреймворк имитационного обучения, который использует эти мультимодальные сигналы для манипулирования. Наш сенсор отличается полностью прозрачным эластомером, постоянной подсветкой, новыми маркерами в виде ключевых линий и эффективным отслеживанием, в то время как наша обучающая система интегрирует эти сигналы с помощью Transformer-based Diffusion Policy. Эксперименты на пяти сложных реальных задачах показывают, что TacThru-UMI достигает среднего показателя успеха 85,5%, значительно превосходя базовые подходы с чередованием тактильного и визуального восприятия (66,3%) и только визуальным восприятием (55,4%). Система демонстрирует превосходство в критических сценариях, включая обнаружение контакта с тонкими и мягкими объектами и прецизионное манипулирование, требующее мультимодальной координации. Данная работа демонстрирует, что сочетание одновременного мультимодального восприятия с современными обучающими фреймворками позволяет реализовать более точное и адаптивное роботизированное манипулирование.
English
Robotic manipulation requires both rich multimodal perception and effective learning frameworks to handle complex real-world tasks. See-through-skin (STS) sensors, which combine tactile and visual perception, offer promising sensing capabilities, while modern imitation learning provides powerful tools for policy acquisition. However, existing STS designs lack simultaneous multimodal perception and suffer from unreliable tactile tracking. Furthermore, integrating these rich multimodal signals into learning-based manipulation pipelines remains an open challenge. We introduce TacThru, an STS sensor enabling simultaneous visual perception and robust tactile signal extraction, and TacThru-UMI, an imitation learning framework that leverages these multimodal signals for manipulation. Our sensor features a fully transparent elastomer, persistent illumination, novel keyline markers, and efficient tracking, while our learning system integrates these signals through a Transformer-based Diffusion Policy. Experiments on five challenging real-world tasks show that TacThru-UMI achieves an average success rate of 85.5%, significantly outperforming the baselines of alternating tactile-visual (66.3%) and vision-only (55.4%). The system excels in critical scenarios, including contact detection with thin and soft objects and precision manipulation requiring multimodal coordination. This work demonstrates that combining simultaneous multimodal perception with modern learning frameworks enables more precise, adaptable robotic manipulation.