マルチモーダルロボット操作学習のための触覚・視覚の同時知覚
Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation
December 10, 2025
著者: Yuyang Li, Yinghan Chen, Zihang Zhao, Puhao Li, Tengyu Liu, Siyuan Huang, Yixin Zhu
cs.AI
要旨
ロボットマニピュレーションには、複雑な実世界タスクを扱うために、豊富なマルチモーダル知覚と効果的な学習フレームワークの両方が必要である。触覚と視覚の知覚を統合する透過型皮膚(STS)センサーは、有望なセンシング能力を提供する一方、現代の模倣学習は方策獲得の強力な手段を提供する。しかし、既存のSTS設計はマルチモーダル知覚の同時実現ができておらず、信頼性の高い触覚トラッキングにも課題がある。さらに、これらの豊富なマルチモーダル信号を学習ベースのマニピュレーションパイプラインに統合することは未解決の課題である。本研究では、視覚知覚とロバストな触覚信号抽出を同時に可能にするSTSセンサー「TacThru」と、これらのマルチモーダル信号をマニピュレーションに活用する模倣学習フレームワーク「TacThru-UMI」を提案する。我々のセンサーは、完全透明エラストマー、持続照明、新規のキーラインマーカー、効率的なトラッキングを特徴とし、学習システムはTransformerベースのDiffusion Policyを通じてこれらの信号を統合する。5つの困難な実世界タスクでの実験により、TacThru-UMIが平均85.5%の成功率を達成し、触覚・視覚の交互利用(66.3%)や視覚のみ(55.4%)のベースラインを大幅に上回ることを示した。本システムは、薄く柔らかい物体との接触検出やマルチモーダル協調を要する高精度マニピュレーションを含む重要なシナリオで優れた性能を発揮する。本研究は、同時マルチモーダル知覚と現代的な学習フレームワークの組み合わせが、より精密で適応性の高いロボットマニピュレーションを実現することを実証する。
English
Robotic manipulation requires both rich multimodal perception and effective learning frameworks to handle complex real-world tasks. See-through-skin (STS) sensors, which combine tactile and visual perception, offer promising sensing capabilities, while modern imitation learning provides powerful tools for policy acquisition. However, existing STS designs lack simultaneous multimodal perception and suffer from unreliable tactile tracking. Furthermore, integrating these rich multimodal signals into learning-based manipulation pipelines remains an open challenge. We introduce TacThru, an STS sensor enabling simultaneous visual perception and robust tactile signal extraction, and TacThru-UMI, an imitation learning framework that leverages these multimodal signals for manipulation. Our sensor features a fully transparent elastomer, persistent illumination, novel keyline markers, and efficient tracking, while our learning system integrates these signals through a Transformer-based Diffusion Policy. Experiments on five challenging real-world tasks show that TacThru-UMI achieves an average success rate of 85.5%, significantly outperforming the baselines of alternating tactile-visual (66.3%) and vision-only (55.4%). The system excels in critical scenarios, including contact detection with thin and soft objects and precision manipulation requiring multimodal coordination. This work demonstrates that combining simultaneous multimodal perception with modern learning frameworks enables more precise, adaptable robotic manipulation.