ChatPaper.aiChatPaper

UniSkill:クロスエンボディメント技能表現による人間のビデオ模倣

UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations

May 13, 2025
著者: Hanjung Kim, Jaehyun Kang, Hyolim Kang, Meedeum Cho, Seon Joo Kim, Youngwoon Lee
cs.AI

要旨

模倣は、人間にとって基本的な学習メカニズムであり、専門家の行動を観察し模倣することで新しいタスクを学ぶことを可能にします。しかし、この能力をロボットに適用する際には、人間とロボットの身体構造における視覚的な外見や物理的な能力の根本的な違いにより、大きな課題が生じます。従来の手法では、共有されたシーンやタスクを含むクロスエンボディメントデータセットを用いてこのギャップを埋めてきましたが、人間とロボットの間で大規模に整列したデータを収集することは容易ではありません。本論文では、ラベルなしの大規模クロスエンボディメントビデオデータからエンボディメントに依存しないスキル表現を学習する新しいフレームワーク「UniSkill」を提案します。これにより、人間のビデオプロンプトから抽出されたスキルが、ロボットデータのみで訓練されたロボットのポリシーに効果的に転移することが可能になります。シミュレーションおよび実世界環境での実験により、我々のクロスエンボディメントスキルが、未見のビデオプロンプトに対してもロボットが適切な行動を選択することを成功裏に導くことが示されました。プロジェクトのウェブサイトは以下にあります: https://kimhanjung.github.io/UniSkill。
English
Mimicry is a fundamental learning mechanism in humans, enabling individuals to learn new tasks by observing and imitating experts. However, applying this ability to robots presents significant challenges due to the inherent differences between human and robot embodiments in both their visual appearance and physical capabilities. While previous methods bridge this gap using cross-embodiment datasets with shared scenes and tasks, collecting such aligned data between humans and robots at scale is not trivial. In this paper, we propose UniSkill, a novel framework that learns embodiment-agnostic skill representations from large-scale cross-embodiment video data without any labels, enabling skills extracted from human video prompts to effectively transfer to robot policies trained only on robot data. Our experiments in both simulation and real-world environments show that our cross-embodiment skills successfully guide robots in selecting appropriate actions, even with unseen video prompts. The project website can be found at: https://kimhanjung.github.io/UniSkill.

Summary

AI-Generated Summary

PDF132May 15, 2025