SimToolReal: ゼロショット巧緻性ツール操作のためのオブジェクト中心ポリシー
SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation
February 18, 2026
著者: Kushal Kedia, Tyler Ga Wei Lum, Jeannette Bohg, C. Karen Liu
cs.AI
要旨
ツール操作能力は、ロボットが実行可能なタスク群を大幅に拡張する。しかし、ツール操作は高度な器用さを必要とする難易度の高い領域であり、薄い物体把持、把持中における物体の回転、強い力の相互作用などを含む。これらの動作に対する遠隔操作データの収集は困難であるため、シミュレーションから実機への強化学習は有望な代替手段となる。しかし、従来の手法では、各タスクに対して物体のモデル化や報酬関数の調整に多大な工学的労力を要するのが一般的であった。本研究では、ツール操作のためのシミュレーションから実機への強化学習ポリシーの一般化に向けた一歩として、SimToolRealを提案する。単一の物体とタスクに焦点を当てるのではなく、シミュレーション内でツールに似た多様な物体プリミティブを手続き的に生成し、各物体をランダムな目標姿勢へ操作するという普遍的な目標を持つ単一の強化学習ポリシーを訓練する。このアプローチにより、SimToolRealは、物体やタスクに特化した訓練を一切行うことなく、テスト時に汎用的な巧緻性を伴うツール操作を実行可能となる。SimToolRealは、特定の対象物体とタスクで訓練された専門的な強化学習ポリシーの性能に匹敵しつつ、従来のリターゲティング手法や固定把持手法を37%上回る性能を示すことを実証する。最後に、SimToolRealが多様な日常的なツール群にわたって一般化することを示し、24のタスク、12の物体インスタンス、6つのツールカテゴリに及ぶ120回の実世界でのロールアウトにおいて、強力なゼロショット性能を達成する。
English
The ability to manipulate tools significantly expands the set of tasks a robot can perform. Yet, tool manipulation represents a challenging class of dexterity, requiring grasping thin objects, in-hand object rotations, and forceful interactions. Since collecting teleoperation data for these behaviors is challenging, sim-to-real reinforcement learning (RL) is a promising alternative. However, prior approaches typically require substantial engineering effort to model objects and tune reward functions for each task. In this work, we propose SimToolReal, taking a step towards generalizing sim-to-real RL policies for tool manipulation. Instead of focusing on a single object and task, we procedurally generate a large variety of tool-like object primitives in simulation and train a single RL policy with the universal goal of manipulating each object to random goal poses. This approach enables SimToolReal to perform general dexterous tool manipulation at test-time without any object or task-specific training. We demonstrate that SimToolReal outperforms prior retargeting and fixed-grasp methods by 37% while matching the performance of specialist RL policies trained on specific target objects and tasks. Finally, we show that SimToolReal generalizes across a diverse set of everyday tools, achieving strong zero-shot performance over 120 real-world rollouts spanning 24 tasks, 12 object instances, and 6 tool categories.