Percezione Tatto-Visiva Simultanea per l'Apprendimento della Manipolazione Robotica Multimodale
Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation
December 10, 2025
Autori: Yuyang Li, Yinghan Chen, Zihang Zhao, Puhao Li, Tengyu Liu, Siyuan Huang, Yixin Zhu
cs.AI
Abstract
La manipolazione robotica richiede sia una ricca percezione multimodale che framework di apprendimento efficaci per gestire compiti complessi nel mondo reale. I sensori "see-through-skin" (STS), che combinano percezione tattile e visiva, offrono capacità di sensing promettenti, mentre l'apprendimento per imitazione moderno fornisce strumenti potenti per l'acquisizione di politiche di controllo. Tuttavia, i progetti STS esistenti mancano di una percezione multimodale simultanea e soffrono di un tracciamento tattile inaffidabile. Inoltre, integrare questi ricchi segnali multimodali in pipeline di manipolazione basate sull'apprendimento rimane una sfida aperta. Introduciamo TacThru, un sensore STS che abilita una percezione visiva simultanea e un'estrazione robusta di segnali tattili, e TacThru-UMI, un framework di apprendimento per imitazione che sfrutta questi segnali multimodali per la manipolazione. Il nostro sensore presenta un elastomero completamente trasparente, un'illuminazione persistente, marcatori "keyline" innovativi e un tracciamento efficiente, mentre il nostro sistema di apprendimento integra questi segnali attraverso una Diffusion Policy basata su Transformer. Esperimenti su cinque compiti reali e impegnativi mostrano che TacThru-UMI raggiunge un tasso di successo medio dell'85,5%, superando significativamente i baseline tattile-visivo alternato (66,3%) e solo visione (55,4%). Il sistema eccelle in scenari critici, inclusi il rilevamento del contatto con oggetti sottili e morbidi e la manipolazione di precisione che richiede coordinazione multimodale. Questo lavoro dimostra che combinare una percezione multimodale simultanea con framework di apprendimento moderni abilita una manipolazione robotica più precisa e adattabile.
English
Robotic manipulation requires both rich multimodal perception and effective learning frameworks to handle complex real-world tasks. See-through-skin (STS) sensors, which combine tactile and visual perception, offer promising sensing capabilities, while modern imitation learning provides powerful tools for policy acquisition. However, existing STS designs lack simultaneous multimodal perception and suffer from unreliable tactile tracking. Furthermore, integrating these rich multimodal signals into learning-based manipulation pipelines remains an open challenge. We introduce TacThru, an STS sensor enabling simultaneous visual perception and robust tactile signal extraction, and TacThru-UMI, an imitation learning framework that leverages these multimodal signals for manipulation. Our sensor features a fully transparent elastomer, persistent illumination, novel keyline markers, and efficient tracking, while our learning system integrates these signals through a Transformer-based Diffusion Policy. Experiments on five challenging real-world tasks show that TacThru-UMI achieves an average success rate of 85.5%, significantly outperforming the baselines of alternating tactile-visual (66.3%) and vision-only (55.4%). The system excels in critical scenarios, including contact detection with thin and soft objects and precision manipulation requiring multimodal coordination. This work demonstrates that combining simultaneous multimodal perception with modern learning frameworks enables more precise, adaptable robotic manipulation.