X-Sim: Aprendizado Trans-Embodiment via Real-para-Sim-para-Real
X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real
May 11, 2025
Autores: Prithwish Dan, Kushal Kedia, Angela Chao, Edward Weiyi Duan, Maximus Adrian Pace, Wei-Chiu Ma, Sanjiban Choudhury
cs.AI
Resumo
Vídeos humanos oferecem uma maneira escalável de treinar políticas de manipulação robótica, mas carecem dos rótulos de ação necessários para algoritmos padrão de aprendizado por imitação. Abordagens existentes de cruzamento de embodiamentos tentam mapear o movimento humano para ações robóticas, mas frequentemente falham quando os embodiamentos diferem significativamente. Propomos o X-Sim, uma estrutura real-para-sim-para-real que utiliza o movimento do objeto como um sinal denso e transferível para aprender políticas robóticas. O X-Sim começa reconstruindo uma simulação fotorrealista a partir de um vídeo humano RGBD e rastreia trajetórias de objetos para definir recompensas centradas no objeto. Essas recompensas são usadas para treinar uma política de aprendizado por reforço (RL) na simulação. A política aprendida é então destilada em uma política de difusão condicionada por imagem usando rollouts sintéticos renderizados com diversos pontos de vista e iluminação. Para transferir para o mundo real, o X-Sim introduz uma técnica de adaptação de domínio online que alinha observações reais e simuladas durante a implantação. Importante destacar que o X-Sim não requer nenhum dado de teleoperação robótica. Avaliamos o método em 5 tarefas de manipulação em 2 ambientes e mostramos que ele: (1) melhora o progresso da tarefa em 30% em média em relação a baselines de rastreamento manual e sim-para-real, (2) iguala o comportamento de clonagem com 10x menos tempo de coleta de dados, e (3) generaliza para novos pontos de vista da câmera e mudanças durante o teste. Código e vídeos estão disponíveis em https://portal-cornell.github.io/X-Sim/.
English
Human videos offer a scalable way to train robot manipulation policies, but
lack the action labels needed by standard imitation learning algorithms.
Existing cross-embodiment approaches try to map human motion to robot actions,
but often fail when the embodiments differ significantly. We propose X-Sim, a
real-to-sim-to-real framework that uses object motion as a dense and
transferable signal for learning robot policies. X-Sim starts by reconstructing
a photorealistic simulation from an RGBD human video and tracking object
trajectories to define object-centric rewards. These rewards are used to train
a reinforcement learning (RL) policy in simulation. The learned policy is then
distilled into an image-conditioned diffusion policy using synthetic rollouts
rendered with varied viewpoints and lighting. To transfer to the real world,
X-Sim introduces an online domain adaptation technique that aligns real and
simulated observations during deployment. Importantly, X-Sim does not require
any robot teleoperation data. We evaluate it across 5 manipulation tasks in 2
environments and show that it: (1) improves task progress by 30% on average
over hand-tracking and sim-to-real baselines, (2) matches behavior cloning with
10x less data collection time, and (3) generalizes to new camera viewpoints and
test-time changes. Code and videos are available at
https://portal-cornell.github.io/X-Sim/.