Percepção Tátil-Visual Simultânea para Aprendizado de Manipulação Robótica Multimodal

Resumo

A manipulação robótica requer tanto uma percepção multimodal rica quanto estruturas de aprendizado eficazes para lidar com tarefas complexas do mundo real. Os sensores de "pele transparente" (STS, do inglês *See-Through-Skin*), que combinam percepção tátil e visual, oferecem capacidades de deteção promissoras, enquanto a aprendizagem por imitação moderna fornece ferramentas poderosas para a aquisição de políticas. No entanto, os projetos STS existentes carecem de percepção multimodal simultânea e sofrem com rastreamento tátil não confiável. Além disso, integrar esses sinais multimodais ricos em pipelines de manipulação baseados em aprendizado permanece um desafio em aberto. Apresentamos o TacThru, um sensor STS que permite a percepção visual simultânea e a extração robusta de sinais táteis, e o TacThru-UMI, uma estrutura de aprendizagem por imitação que aproveita esses sinais multimodais para manipulação. Nosso sensor apresenta um elastômero totalmente transparente, iluminação persistente, marcadores de linha-chave inovadores e rastreamento eficiente, enquanto nosso sistema de aprendizado integra esses sinais por meio de uma Política de Difusão baseada em Transformer. Experimentos em cinco tarefas desafiadoras do mundo real mostram que o TacThru-UMI atinge uma taxa média de sucesso de 85,5%, superando significativamente as linhas de base de tátil-visual alternada (66,3%) e apenas visão (55,4%). O sistema se destaca em cenários críticos, incluindo deteção de contato com objetos finos e macios e manipulação de precisão que requer coordenação multimodal. Este trabalho demonstra que combinar a percepção multimodal simultânea com estruturas de aprendizado modernas permite uma manipulação robótica mais precisa e adaptável.

English

Robotic manipulation requires both rich multimodal perception and effective learning frameworks to handle complex real-world tasks. See-through-skin (STS) sensors, which combine tactile and visual perception, offer promising sensing capabilities, while modern imitation learning provides powerful tools for policy acquisition. However, existing STS designs lack simultaneous multimodal perception and suffer from unreliable tactile tracking. Furthermore, integrating these rich multimodal signals into learning-based manipulation pipelines remains an open challenge. We introduce TacThru, an STS sensor enabling simultaneous visual perception and robust tactile signal extraction, and TacThru-UMI, an imitation learning framework that leverages these multimodal signals for manipulation. Our sensor features a fully transparent elastomer, persistent illumination, novel keyline markers, and efficient tracking, while our learning system integrates these signals through a Transformer-based Diffusion Policy. Experiments on five challenging real-world tasks show that TacThru-UMI achieves an average success rate of 85.5%, significantly outperforming the baselines of alternating tactile-visual (66.3%) and vision-only (55.4%). The system excels in critical scenarios, including contact detection with thin and soft objects and precision manipulation requiring multimodal coordination. This work demonstrates that combining simultaneous multimodal perception with modern learning frameworks enables more precise, adaptable robotic manipulation.

Percepção Tátil-Visual Simultânea para Aprendizado de Manipulação Robótica Multimodal

Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

Resumo

Support