ChatPaper.aiChatPaper

TactAlign: 촉각 정렬을 통한 인간-로봇 정책 전이

TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment

February 14, 2026
저자: Youngsun Wi, Jessica Yin, Elvis Xiang, Akash Sharma, Jitendra Malik, Mustafa Mukadam, Nima Fazeli, Tess Hellebrekers
cs.AI

초록

웨어러블 장치(예: 촉각 장갑)를 통해 수집된 인간의 데모는 정책 학습에 빠르고 정교한 지도를 제공하며, 풍부하고 자연스러운 촉각 피드백에 의해 유도됩니다. 그러나 중요한 과제는 감각 방식과 구현체의 차이에도 불구하고 인간이 수집한 촉각 신호를 로봇에 어떻게 전달하느냐입니다. 촉각을 활용한 기존의 인간-로봇(H2R) 접근법은 동일한 촉각 센서를 가정하거나, 짝지어진 데이터를 요구하거나, 인간 실연자와 로봇 간의 구현체 차이가 거의 없는 경우가 많아 확장성과 일반성을 제한합니다. 우리는 인간이 수집한 촉각 신호를 다른 구현체를 가진 로봇으로 전달하는 교차 구현체 촉각 정렬 방법인 TactAlign을 제안합니다. TactAlign은 정류 흐름을 사용하여 인간과 로봇의 촉각 관측을 공유 잠재 표현으로 변환하며, 이 과정에 짝지어진 데이터셋, 수동 레이블 또는 특권 정보가 필요하지 않습니다. 우리의 방법은 손-객체 상호작용에서 도출된 가상 짝에 의해 유도되는 저비용 잠재 전송을 가능하게 합니다. 우리는 TactAlign이 여러 접촉이 많은 작업(회전, 삽입, 뚜껑 닫기)에서 H2R 정책 전달을 개선하고, 인간 데이터(5분 미만)로 보지 않은 객체와 작업에 대해 일반화되며, 매우 정교한 작업(전구 끼우기)에서 제로샷 H2R 전송을 가능하게 함을 입증합니다.
English
Human demonstrations collected by wearable devices (e.g., tactile gloves) provide fast and dexterous supervision for policy learning, and are guided by rich, natural tactile feedback. However, a key challenge is how to transfer human-collected tactile signals to robots despite the differences in sensing modalities and embodiment. Existing human-to-robot (H2R) approaches that incorporate touch often assume identical tactile sensors, require paired data, and involve little to no embodiment gap between human demonstrator and the robots, limiting scalability and generality. We propose TactAlign, a cross-embodiment tactile alignment method that transfers human-collected tactile signals to a robot with different embodiment. TactAlign transforms human and robot tactile observations into a shared latent representation using a rectified flow, without paired datasets, manual labels, or privileged information. Our method enables low-cost latent transport guided by hand-object interaction-derived pseudo-pairs. We demonstrate that TactAlign improves H2R policy transfer across multiple contact-rich tasks (pivoting, insertion, lid closing), generalizes to unseen objects and tasks with human data (less than 5 minutes), and enables zero-shot H2R transfer on a highly dexterous tasks (light bulb screwing).
PDF102February 21, 2026