Simultane taktil-visuelle Wahrnehmung zum Erlernen multimodaler Roboter-Manipulation
Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation
December 10, 2025
papers.authors: Yuyang Li, Yinghan Chen, Zihang Zhao, Puhao Li, Tengyu Liu, Siyuan Huang, Yixin Zhu
cs.AI
papers.abstract
Roboter-Manipulation erfordert sowohl eine umfassende multimodale Wahrnehmung als auch effektive Lernframeworks, um komplexe Aufgaben in der realen Welt zu bewältigen. Durchsicht-Haut (STS)-Sensoren, die taktile und visuelle Wahrnehmung kombinieren, bieten vielversprechende Erfassungsfähigkeiten, während moderne Imitationslernverfahren leistungsstarke Werkzeuge zur Politikakquisition bereitstellen. Allerdings fehlt es bestehenden STS-Designs an simultaner multimodaler Wahrnehmung und sie leiden unter unzuverlässiger taktiler Erfassung. Darüber hinaus bleibt die Integration dieser reichhaltigen multimodalen Signale in lernbasierte Manipulationspipelines eine ungelöste Herausforderung. Wir stellen TacThru vor, einen STS-Sensor, der simultane visuelle Wahrnehmung und robuste taktile Signalerfassung ermöglicht, sowie TacThru-UMI, ein Imitationslernframework, das diese multimodalen Signale für die Manipulation nutzt. Unser Sensor zeichnet sich durch ein vollständig transparentes Elastomer, dauerhafte Beleuchtung, neuartige Markierungslinien und effiziente Erfassung aus, während unser Lernsystem diese Signale durch eine transformerbasierte Diffusionspolitik integriert. Experimente mit fünf anspruchsvollen realen Aufgaben zeigen, dass TacThru-UMI eine durchschnittliche Erfolgsrate von 85,5 % erreicht und damit die Baseline-Ansätze mit abwechselnd taktil-visueller (66,3 %) und rein visueller Wahrnehmung (55,4 %) signifikant übertrifft. Das System überzeugt in kritischen Szenarien, einschließlich der Kontakterkennung mit dünnen und weichen Objekten sowie Präzisionsmanipulationen, die multimodale Koordination erfordern. Diese Arbeit zeigt, dass die Kombination von simultaner multimodaler Wahrnehmung mit modernen Lernframeworks eine präzisere und anpassungsfähigere Roboter-Manipulation ermöglicht.
English
Robotic manipulation requires both rich multimodal perception and effective learning frameworks to handle complex real-world tasks. See-through-skin (STS) sensors, which combine tactile and visual perception, offer promising sensing capabilities, while modern imitation learning provides powerful tools for policy acquisition. However, existing STS designs lack simultaneous multimodal perception and suffer from unreliable tactile tracking. Furthermore, integrating these rich multimodal signals into learning-based manipulation pipelines remains an open challenge. We introduce TacThru, an STS sensor enabling simultaneous visual perception and robust tactile signal extraction, and TacThru-UMI, an imitation learning framework that leverages these multimodal signals for manipulation. Our sensor features a fully transparent elastomer, persistent illumination, novel keyline markers, and efficient tracking, while our learning system integrates these signals through a Transformer-based Diffusion Policy. Experiments on five challenging real-world tasks show that TacThru-UMI achieves an average success rate of 85.5%, significantly outperforming the baselines of alternating tactile-visual (66.3%) and vision-only (55.4%). The system excels in critical scenarios, including contact detection with thin and soft objects and precision manipulation requiring multimodal coordination. This work demonstrates that combining simultaneous multimodal perception with modern learning frameworks enables more precise, adaptable robotic manipulation.