ChatPaper.aiChatPaper

Perception tactile et visuelle simultanée pour l'apprentissage de la manipulation robotique multimodale

Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

December 10, 2025
papers.authors: Yuyang Li, Yinghan Chen, Zihang Zhao, Puhao Li, Tengyu Liu, Siyuan Huang, Yixin Zhu
cs.AI

papers.abstract

La manipulation robotique nécessite à la fois une perception multimodale riche et des cadres d'apprentissage efficaces pour gérer des tâches complexes du monde réel. Les capteurs "see-through-skin" (STS), qui combinent la perception tactile et visuelle, offrent des capacités de détection prometteuses, tandis que l'apprentissage par imitation moderne fournit des outils puissants pour l'acquisition de politiques. Cependant, les conceptions STS existantes manquent de perception multimodale simultanée et souffrent d'un suivi tactile peu fiable. De plus, l'intégration de ces signaux multimodaux riches dans des pipelines de manipulation basés sur l'apprentissage reste un défi ouvert. Nous présentons TacThru, un capteur STS permettant une perception visuelle simultanée et une extraction robuste de signaux tactiles, et TacThru-UMI, un cadre d'apprentissage par imitation qui exploite ces signaux multimodaux pour la manipulation. Notre capteur intègre un élastomère entièrement transparent, un éclairage persistant, des marqueurs à lignes clés novateurs et un suivi efficace, tandis que notre système d'apprentissage intègre ces signaux via une politique de diffusion basée sur un Transformer. Des expériences sur cinq tâches réelles complexes montrent que TacThru-UMI atteint un taux de réussite moyen de 85,5 %, surpassant significativement les bases de référence que sont l'alternance tactile-visuel (66,3 %) et la vision seule (55,4 %). Le système excelle dans des scénarios critiques, incluant la détection de contact avec des objets fins et mous et la manipulation de précision nécessitant une coordination multimodale. Ce travail démontre que la combinaison d'une perception multimodale simultanée avec des cadres d'apprentissage modernes permet une manipulation robotique plus précise et adaptable.
English
Robotic manipulation requires both rich multimodal perception and effective learning frameworks to handle complex real-world tasks. See-through-skin (STS) sensors, which combine tactile and visual perception, offer promising sensing capabilities, while modern imitation learning provides powerful tools for policy acquisition. However, existing STS designs lack simultaneous multimodal perception and suffer from unreliable tactile tracking. Furthermore, integrating these rich multimodal signals into learning-based manipulation pipelines remains an open challenge. We introduce TacThru, an STS sensor enabling simultaneous visual perception and robust tactile signal extraction, and TacThru-UMI, an imitation learning framework that leverages these multimodal signals for manipulation. Our sensor features a fully transparent elastomer, persistent illumination, novel keyline markers, and efficient tracking, while our learning system integrates these signals through a Transformer-based Diffusion Policy. Experiments on five challenging real-world tasks show that TacThru-UMI achieves an average success rate of 85.5%, significantly outperforming the baselines of alternating tactile-visual (66.3%) and vision-only (55.4%). The system excels in critical scenarios, including contact detection with thin and soft objects and precision manipulation requiring multimodal coordination. This work demonstrates that combining simultaneous multimodal perception with modern learning frameworks enables more precise, adaptable robotic manipulation.
PDF12December 19, 2025