ChatPaper.aiChatPaper

X-Sim : Apprentissage trans-embodiment via un processus réel-simulé-réel

X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real

May 11, 2025
Auteurs: Prithwish Dan, Kushal Kedia, Angela Chao, Edward Weiyi Duan, Maximus Adrian Pace, Wei-Chiu Ma, Sanjiban Choudhury
cs.AI

Résumé

Les vidéos humaines offrent une méthode évolutive pour entraîner des politiques de manipulation robotique, mais elles manquent des étiquettes d'action nécessaires aux algorithmes d'apprentissage par imitation standard. Les approches inter-embodiment existantes tentent de mapper le mouvement humain aux actions robotiques, mais échouent souvent lorsque les embodiments diffèrent significativement. Nous proposons X-Sim, un cadre réel-simulé-réel qui utilise le mouvement des objets comme signal dense et transférable pour l'apprentissage de politiques robotiques. X-Sim commence par reconstruire une simulation photoréaliste à partir d'une vidéo humaine RGBD et suit les trajectoires des objets pour définir des récompenses centrées sur les objets. Ces récompenses sont utilisées pour entraîner une politique d'apprentissage par renforcement (RL) en simulation. La politique apprise est ensuite distillée en une politique de diffusion conditionnée par l'image à l'aide de déploiements synthétiques rendus avec des points de vue et des éclairages variés. Pour transférer dans le monde réel, X-Sim introduit une technique d'adaptation de domaine en ligne qui aligne les observations réelles et simulées pendant le déploiement. Notamment, X-Sim ne nécessite aucune donnée de téléopération robotique. Nous l'évaluons sur 5 tâches de manipulation dans 2 environnements et montrons qu'il : (1) améliore la progression des tâches de 30 % en moyenne par rapport aux bases de suivi manuel et de transfert simulé-réel, (2) correspond à l'apprentissage par imitation avec 10 fois moins de temps de collecte de données, et (3) généralise à de nouveaux points de vue de caméra et à des changements en temps réel. Le code et les vidéos sont disponibles à l'adresse https://portal-cornell.github.io/X-Sim/.
English
Human videos offer a scalable way to train robot manipulation policies, but lack the action labels needed by standard imitation learning algorithms. Existing cross-embodiment approaches try to map human motion to robot actions, but often fail when the embodiments differ significantly. We propose X-Sim, a real-to-sim-to-real framework that uses object motion as a dense and transferable signal for learning robot policies. X-Sim starts by reconstructing a photorealistic simulation from an RGBD human video and tracking object trajectories to define object-centric rewards. These rewards are used to train a reinforcement learning (RL) policy in simulation. The learned policy is then distilled into an image-conditioned diffusion policy using synthetic rollouts rendered with varied viewpoints and lighting. To transfer to the real world, X-Sim introduces an online domain adaptation technique that aligns real and simulated observations during deployment. Importantly, X-Sim does not require any robot teleoperation data. We evaluate it across 5 manipulation tasks in 2 environments and show that it: (1) improves task progress by 30% on average over hand-tracking and sim-to-real baselines, (2) matches behavior cloning with 10x less data collection time, and (3) generalizes to new camera viewpoints and test-time changes. Code and videos are available at https://portal-cornell.github.io/X-Sim/.

Summary

AI-Generated Summary

PDF32May 16, 2025