ChatPaper.aiChatPaper

X-Sim: Cross-Embodiment Leren via Real-to-Sim-to-Real

X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real

May 11, 2025
Auteurs: Prithwish Dan, Kushal Kedia, Angela Chao, Edward Weiyi Duan, Maximus Adrian Pace, Wei-Chiu Ma, Sanjiban Choudhury
cs.AI

Samenvatting

Menselijke video's bieden een schaalbare manier om robotmanipulatiebeleid te trainen, maar missen de actielabels die nodig zijn voor standaard imitatieleringsalgoritmen. Bestaande cross-embodiment benaderingen proberen menselijke bewegingen naar robotacties te vertalen, maar falen vaak wanneer de embodimenten significant verschillen. Wij stellen X-Sim voor, een real-to-sim-to-real raamwerk dat objectbeweging gebruikt als een dicht en overdraagbaar signaal voor het leren van robotbeleid. X-Sim begint met het reconstrueren van een fotorealistische simulatie vanuit een RGBD-menselijke video en het volgen van objecttrajectorieën om objectgerichte beloningen te definiëren. Deze beloningen worden gebruikt om een reinforcement learning (RL) beleid in de simulatie te trainen. Het geleerde beleid wordt vervolgens gedistilleerd in een beeld-geconditioneerd diffusiebeleid met behulp van synthetische rollouts gerenderd vanuit verschillende gezichtspunten en belichting. Om naar de echte wereld over te dragen, introduceert X-Sim een online domeinaanpassingstechniek die echte en gesimuleerde observaties uitlijnt tijdens de implementatie. Belangrijk is dat X-Sim geen robotteleoperatiegegevens vereist. We evalueren het over 5 manipulatietaken in 2 omgevingen en tonen aan dat het: (1) de taakvoortgang met gemiddeld 30% verbetert ten opzichte van handtracking en sim-to-real basislijnen, (2) gedragsklonering evenaart met 10x minder datacollectietijd, en (3) generaliseert naar nieuwe cameraperspectieven en testtijdwijzigingen. Code en video's zijn beschikbaar op https://portal-cornell.github.io/X-Sim/.
English
Human videos offer a scalable way to train robot manipulation policies, but lack the action labels needed by standard imitation learning algorithms. Existing cross-embodiment approaches try to map human motion to robot actions, but often fail when the embodiments differ significantly. We propose X-Sim, a real-to-sim-to-real framework that uses object motion as a dense and transferable signal for learning robot policies. X-Sim starts by reconstructing a photorealistic simulation from an RGBD human video and tracking object trajectories to define object-centric rewards. These rewards are used to train a reinforcement learning (RL) policy in simulation. The learned policy is then distilled into an image-conditioned diffusion policy using synthetic rollouts rendered with varied viewpoints and lighting. To transfer to the real world, X-Sim introduces an online domain adaptation technique that aligns real and simulated observations during deployment. Importantly, X-Sim does not require any robot teleoperation data. We evaluate it across 5 manipulation tasks in 2 environments and show that it: (1) improves task progress by 30% on average over hand-tracking and sim-to-real baselines, (2) matches behavior cloning with 10x less data collection time, and (3) generalizes to new camera viewpoints and test-time changes. Code and videos are available at https://portal-cornell.github.io/X-Sim/.

Summary

AI-Generated Summary

PDF32May 16, 2025