ChatPaper.aiChatPaper

Gelijktijdige Tactiel-Visuele Waarneming voor het Leren van Multimodale Robotmanipulatie

Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

December 10, 2025
Auteurs: Yuyang Li, Yinghan Chen, Zihang Zhao, Puhao Li, Tengyu Liu, Siyuan Huang, Yixin Zhu
cs.AI

Samenvatting

Robotmanipulatie vereist zowel rijke multimodale perceptie als effectieve leerframeworks om complexe taken in de echte wereld aan te kunnen. Door-de-huid-zien (STS) sensoren, die tactiele en visuele perceptie combineren, bieden veelbelovende waarnemingsmogelijkheden, terwijl moderne imitatieleren krachtige tools biedt voor het verwerven van beleid. Echter, bestaande STS-ontwerpen missen gelijktijdige multimodale perceptie en lijden onder onbetrouwbare tactiele tracking. Bovendien is het integreren van deze rijke multimodale signalen in op leren gebaseerde manipulatiewerkstromen een onopgeloste uitdaging. Wij introduceren TacThru, een STS-sensor die gelijktijdige visuele perceptie en robuuste extractie van tactiele signalen mogelijk maakt, en TacThru-UMI, een imitatieleerframework dat deze multimodale signalen benut voor manipulatie. Onze sensor kenmerkt zich door een volledig transparant elastomeer, persistente belichting, nieuwe keyline-markeringen en efficiënte tracking, terwijl ons leersysteem deze signalen integreert via een op Transformer gebaseerd Diffusion Policy. Experimenten met vijf uitdagende taken in de echte wereld tonen aan dat TacThru-UMI een gemiddeld slagingspercentage van 85,5% behaalt, wat significant beter is dan de baseline-methoden van afwisselend tactiel-visueel (66,3%) en visie-alleen (55,4%). Het systeem presteert uitstekend in kritieke scenario's, inclusief contactdetectie met dunne en zachte objecten en precisiemanipulatie die multimodale coördinatie vereist. Dit werk toont aan dat het combineren van gelijktijdige multimodale perceptie met moderne leerframeworks nauwkeurigere, aanpasbare robotmanipulatie mogelijk maakt.
English
Robotic manipulation requires both rich multimodal perception and effective learning frameworks to handle complex real-world tasks. See-through-skin (STS) sensors, which combine tactile and visual perception, offer promising sensing capabilities, while modern imitation learning provides powerful tools for policy acquisition. However, existing STS designs lack simultaneous multimodal perception and suffer from unreliable tactile tracking. Furthermore, integrating these rich multimodal signals into learning-based manipulation pipelines remains an open challenge. We introduce TacThru, an STS sensor enabling simultaneous visual perception and robust tactile signal extraction, and TacThru-UMI, an imitation learning framework that leverages these multimodal signals for manipulation. Our sensor features a fully transparent elastomer, persistent illumination, novel keyline markers, and efficient tracking, while our learning system integrates these signals through a Transformer-based Diffusion Policy. Experiments on five challenging real-world tasks show that TacThru-UMI achieves an average success rate of 85.5%, significantly outperforming the baselines of alternating tactile-visual (66.3%) and vision-only (55.4%). The system excels in critical scenarios, including contact detection with thin and soft objects and precision manipulation requiring multimodal coordination. This work demonstrates that combining simultaneous multimodal perception with modern learning frameworks enables more precise, adaptable robotic manipulation.
PDF12December 19, 2025