ChatPaper.aiChatPaper

X-Sim: Apprendimento Cross-Embodiment tramite Real-to-Sim-to-Real

X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real

May 11, 2025
Autori: Prithwish Dan, Kushal Kedia, Angela Chao, Edward Weiyi Duan, Maximus Adrian Pace, Wei-Chiu Ma, Sanjiban Choudhury
cs.AI

Abstract

I video umani offrono un modo scalabile per addestrare politiche di manipolazione robotica, ma mancano delle etichette di azione necessarie per gli algoritmi standard di apprendimento per imitazione. Gli approcci esistenti cross-embodiment cercano di mappare il movimento umano alle azioni del robot, ma spesso falliscono quando le embodiment differiscono significativamente. Proponiamo X-Sim, un framework real-to-sim-to-real che utilizza il movimento degli oggetti come segnale denso e trasferibile per l'apprendimento di politiche robotiche. X-Sim inizia ricostruendo una simulazione fotorealistica da un video umano RGBD e tracciando le traiettorie degli oggetti per definire ricompense centrate sugli oggetti. Queste ricompense vengono utilizzate per addestrare una politica di apprendimento per rinforzo (RL) in simulazione. La politica appresa viene poi distillata in una politica di diffusione condizionata alle immagini utilizzando rollout sintetici resi con punti di vista e illuminazione variati. Per trasferire il tutto nel mondo reale, X-Sim introduce una tecnica di adattamento di dominio online che allinea le osservazioni reali e simulate durante la distribuzione. È importante notare che X-Sim non richiede alcun dato di teleoperazione robotica. Lo valutiamo su 5 compiti di manipolazione in 2 ambienti e dimostriamo che: (1) migliora il progresso del compito del 30% in media rispetto ai baseline di hand-tracking e sim-to-real, (2) eguaglia il comportamento clonato con un tempo di raccolta dati 10 volte inferiore, e (3) generalizza a nuovi punti di vista della telecamera e a cambiamenti durante il test. Codice e video sono disponibili su https://portal-cornell.github.io/X-Sim/.
English
Human videos offer a scalable way to train robot manipulation policies, but lack the action labels needed by standard imitation learning algorithms. Existing cross-embodiment approaches try to map human motion to robot actions, but often fail when the embodiments differ significantly. We propose X-Sim, a real-to-sim-to-real framework that uses object motion as a dense and transferable signal for learning robot policies. X-Sim starts by reconstructing a photorealistic simulation from an RGBD human video and tracking object trajectories to define object-centric rewards. These rewards are used to train a reinforcement learning (RL) policy in simulation. The learned policy is then distilled into an image-conditioned diffusion policy using synthetic rollouts rendered with varied viewpoints and lighting. To transfer to the real world, X-Sim introduces an online domain adaptation technique that aligns real and simulated observations during deployment. Importantly, X-Sim does not require any robot teleoperation data. We evaluate it across 5 manipulation tasks in 2 environments and show that it: (1) improves task progress by 30% on average over hand-tracking and sim-to-real baselines, (2) matches behavior cloning with 10x less data collection time, and (3) generalizes to new camera viewpoints and test-time changes. Code and videos are available at https://portal-cornell.github.io/X-Sim/.
PDF42May 16, 2025