ChatPaper.aiChatPaper

Percepción Táctil-Visual Simultánea para el Aprendizaje de la Manipulación Robótica Multimodal

Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

December 10, 2025
Autores: Yuyang Li, Yinghan Chen, Zihang Zhao, Puhao Li, Tengyu Liu, Siyuan Huang, Yixin Zhu
cs.AI

Resumen

La manipulación robótica requiere tanto una percepción multimodal rica como marcos de aprendizaje efectivos para manejar tareas complejas del mundo real. Los sensores de tipo "ver a través de la piel" (STS, por sus siglas en inglés), que combinan percepción táctil y visual, ofrecen capacidades de detección prometedoras, mientras que la imitación moderna proporciona herramientas poderosas para la adquisición de políticas. Sin embargo, los diseños STS existentes carecen de percepción multimodal simultánea y adolecen de un seguimiento táctil poco fiable. Además, integrar estas señales multimodales ricas en pipelines de manipulación basados en aprendizaje sigue siendo un desafío abierto. Presentamos TacThru, un sensor STS que permite la percepción visual simultánea y la extracción robusta de señales táctiles, y TacThru-UMI, un marco de aprendizaje por imitación que aprovecha estas señales multimodales para la manipulación. Nuestro sensor presenta un elastómero completamente transparente, iluminación persistente, nuevos marcadores de líneas de referencia y un seguimiento eficiente, mientras que nuestro sistema de aprendizaje integra estas señales mediante una Política de Difusión basada en Transformer. Los experimentos en cinco tareas desafiantes del mundo real muestran que TacThru-UMI alcanza una tasa de éxito promedio del 85.5%, superando significativamente a los baselines de alternancia táctil-visual (66.3%) y solo visión (55.4%). El sistema sobresale en escenarios críticos, incluyendo la detección de contacto con objetos delgados y blandos y la manipulación de precisión que requiere coordinación multimodal. Este trabajo demuestra que combinar la percepción multimodal simultánea con marcos de aprendizaje modernos permite una manipulación robótica más precisa y adaptable.
English
Robotic manipulation requires both rich multimodal perception and effective learning frameworks to handle complex real-world tasks. See-through-skin (STS) sensors, which combine tactile and visual perception, offer promising sensing capabilities, while modern imitation learning provides powerful tools for policy acquisition. However, existing STS designs lack simultaneous multimodal perception and suffer from unreliable tactile tracking. Furthermore, integrating these rich multimodal signals into learning-based manipulation pipelines remains an open challenge. We introduce TacThru, an STS sensor enabling simultaneous visual perception and robust tactile signal extraction, and TacThru-UMI, an imitation learning framework that leverages these multimodal signals for manipulation. Our sensor features a fully transparent elastomer, persistent illumination, novel keyline markers, and efficient tracking, while our learning system integrates these signals through a Transformer-based Diffusion Policy. Experiments on five challenging real-world tasks show that TacThru-UMI achieves an average success rate of 85.5%, significantly outperforming the baselines of alternating tactile-visual (66.3%) and vision-only (55.4%). The system excels in critical scenarios, including contact detection with thin and soft objects and precision manipulation requiring multimodal coordination. This work demonstrates that combining simultaneous multimodal perception with modern learning frameworks enables more precise, adaptable robotic manipulation.
PDF12December 19, 2025