SimToolReal: 제로샷 정교한 도구 조작을 위한 객체 중심 정책
SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation
February 18, 2026
저자: Kushal Kedia, Tyler Ga Wei Lum, Jeannette Bohg, C. Karen Liu
cs.AI
초록
도구 조작 능력은 로봇이 수행할 수 있는 작업 범위를 크게 확장시킨다. 그러나 도구 조직은 얇은 객체 파지, 손 내 객체 회전, 힘을 가한 상호작용 등을 요구하는 고난도의 정밀 조작 기술에 속한다. 이러한 동작들에 대한 원격 조작 데이터 수집이 어렵기 때문에 시뮬레이션-실물 강화학습(RL)이 유망한 대안으로 주목받고 있다. 하지만 기존 접근법들은 일반적으로 각 작업별 객체 모델링 및 보상 함수 조정에 상당한 공학적 노력이 필요하다. 본 연구에서는 도구 조직을 위한 시뮬레이션-실물 RL 정책의 일반화에 한 걸음 나아간 SimToolReal을 제안한다. 단일 객체와 작업에 집중하는 대신, 시뮬레이션 내에서 다양한 도구형 객체 기본 요소들을 절차적으로 생성하고 각 객체를 무작위 목표 자세로 조작한다는 보편적 목표를 가진 단일 RL 정책을 학습한다. 이 접근법을 통해 SimToolReal은 테스트 시점에 객체나 작업별 특화 학습 없이도 일반적인 정밀 도구 조작을 수행할 수 있다. SimToolReal이 기존 재타겟팅 및 고정 파지 방법보다 37% 우수한 성능을 보이면서도 특정 대상 객체와 작업에 대해 학습된 전문가 RL 정책의 성능과도 일치함을 입증한다. 마지막으로 SimToolReal이 다양한 일상 도구들에 걸쳐 일반화되어, 24개 작업, 12개 객체 인스턴스, 6개 도구 범주를 아우르는 120회의 실제 환경 실행에서 강력한 제로샷 성능을 달성함을 보여준다.
English
The ability to manipulate tools significantly expands the set of tasks a robot can perform. Yet, tool manipulation represents a challenging class of dexterity, requiring grasping thin objects, in-hand object rotations, and forceful interactions. Since collecting teleoperation data for these behaviors is challenging, sim-to-real reinforcement learning (RL) is a promising alternative. However, prior approaches typically require substantial engineering effort to model objects and tune reward functions for each task. In this work, we propose SimToolReal, taking a step towards generalizing sim-to-real RL policies for tool manipulation. Instead of focusing on a single object and task, we procedurally generate a large variety of tool-like object primitives in simulation and train a single RL policy with the universal goal of manipulating each object to random goal poses. This approach enables SimToolReal to perform general dexterous tool manipulation at test-time without any object or task-specific training. We demonstrate that SimToolReal outperforms prior retargeting and fixed-grasp methods by 37% while matching the performance of specialist RL policies trained on specific target objects and tasks. Finally, we show that SimToolReal generalizes across a diverse set of everyday tools, achieving strong zero-shot performance over 120 real-world rollouts spanning 24 tasks, 12 object instances, and 6 tool categories.