ChatPaper.aiChatPaper

다중 모달 로봇 매니퓰레이션 학습을 위한 촉각-시각 동시 인지

Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

December 10, 2025
저자: Yuyang Li, Yinghan Chen, Zihang Zhao, Puhao Li, Tengyu Liu, Siyuan Huang, Yixin Zhu
cs.AI

초록

로봇 매니퓰레이션은 복잡한 실제 환경 과제를 처리하기 위해 풍부한 다중 모달 인지와 효과적인 학습 프레임워크가 모두 필요합니다. 촉각 및 시각 인지를 결합한 투과성 피부(STS) 센서는 유망한 감지 능력을 제공하는 반면, 현대적 모방 학습은 정책 획득을 위한 강력한 도구를 제공합니다. 그러나 기존 STS 설계는 동시 다중 모달 인지가 부족하고 신뢰할 수 없는 촉각 추적 문제를 겪고 있습니다. 더욱이 이러한 풍부한 다중 모달 신호를 학습 기반 매니퓰레이션 파이프라인에 통합하는 것은 여전히 해결 과제로 남아 있습니다. 본 연구에서는 동시 시각 인지와 강력한 촉각 신호 추출을 가능하게 하는 STS 센서 TacThru와, 이러한 다중 모달 신호를 매니퓰레이션에 활용하는 모방 학습 프레임워크 TacThru-UMI를 소개합니다. 우리의 센서는 완전 투명 탄성중합체, 지속적 조명, 새로운 키라인 마커 및 효율적 추적을 특징으로 하며, 학습 시스템은 트랜스포머 기반 Diffusion Policy를 통해 이러한 신호를 통합합니다. 5가지 까다로운 실제 과제에 대한 실험에서 TacThru-UMI는 평균 85.5%의 성공률을 달성하여 촉각-시각 교차(66.3%) 및 시각 단독(55.4%) 기준선을 크게 능가했습니다. 본 시스템은 얇고 부드러운 객체의 접촉 감지 및 다중 모달 조정이 필요한 정밀 매니퓰레이션을 포함한 중요 시나리오에서 탁월한 성능을 보였습니다. 이 연구는 동시 다중 모달 인지와 현대적 학습 프레임워크의 결합이 더 정밀하고 적응적인 로봇 매니퓰레이션을 가능하게 함을 입증합니다.
English
Robotic manipulation requires both rich multimodal perception and effective learning frameworks to handle complex real-world tasks. See-through-skin (STS) sensors, which combine tactile and visual perception, offer promising sensing capabilities, while modern imitation learning provides powerful tools for policy acquisition. However, existing STS designs lack simultaneous multimodal perception and suffer from unreliable tactile tracking. Furthermore, integrating these rich multimodal signals into learning-based manipulation pipelines remains an open challenge. We introduce TacThru, an STS sensor enabling simultaneous visual perception and robust tactile signal extraction, and TacThru-UMI, an imitation learning framework that leverages these multimodal signals for manipulation. Our sensor features a fully transparent elastomer, persistent illumination, novel keyline markers, and efficient tracking, while our learning system integrates these signals through a Transformer-based Diffusion Policy. Experiments on five challenging real-world tasks show that TacThru-UMI achieves an average success rate of 85.5%, significantly outperforming the baselines of alternating tactile-visual (66.3%) and vision-only (55.4%). The system excels in critical scenarios, including contact detection with thin and soft objects and precision manipulation requiring multimodal coordination. This work demonstrates that combining simultaneous multimodal perception with modern learning frameworks enables more precise, adaptable robotic manipulation.
PDF12December 19, 2025