ChatPaper.aiChatPaper

X-Sim: Aprendizaje Transcorporal a través de Real-a-Sim-a-Real

X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real

May 11, 2025
Autores: Prithwish Dan, Kushal Kedia, Angela Chao, Edward Weiyi Duan, Maximus Adrian Pace, Wei-Chiu Ma, Sanjiban Choudhury
cs.AI

Resumen

Los videos humanos ofrecen una forma escalable de entrenar políticas de manipulación robótica, pero carecen de las etiquetas de acción necesarias para los algoritmos estándar de aprendizaje por imitación. Los enfoques existentes de cruce de encarnaciones intentan mapear el movimiento humano a acciones robóticas, pero a menudo fallan cuando las encarnaciones difieren significativamente. Proponemos X-Sim, un marco de trabajo de real-a-sim-a-real que utiliza el movimiento de los objetos como una señal densa y transferible para aprender políticas robóticas. X-Sim comienza reconstruyendo una simulación fotorrealista a partir de un video humano RGBD y rastreando trayectorias de objetos para definir recompensas centradas en los objetos. Estas recompensas se utilizan para entrenar una política de aprendizaje por refuerzo (RL) en simulación. La política aprendida se destila luego en una política de difusión condicionada por imágenes utilizando rollouts sintéticos renderizados con diversos puntos de vista e iluminación. Para transferir al mundo real, X-Sim introduce una técnica de adaptación de dominio en línea que alinea las observaciones reales y simuladas durante la implementación. Es importante destacar que X-Sim no requiere ningún dato de teleoperación robótica. Lo evaluamos en 5 tareas de manipulación en 2 entornos y demostramos que: (1) mejora el progreso de la tarea en un 30% en promedio sobre las líneas base de seguimiento manual y de simulación a realidad, (2) iguala el comportamiento de clonación con 10 veces menos tiempo de recopilación de datos, y (3) generaliza a nuevos puntos de vista de cámara y cambios en tiempo de prueba. El código y los videos están disponibles en https://portal-cornell.github.io/X-Sim/.
English
Human videos offer a scalable way to train robot manipulation policies, but lack the action labels needed by standard imitation learning algorithms. Existing cross-embodiment approaches try to map human motion to robot actions, but often fail when the embodiments differ significantly. We propose X-Sim, a real-to-sim-to-real framework that uses object motion as a dense and transferable signal for learning robot policies. X-Sim starts by reconstructing a photorealistic simulation from an RGBD human video and tracking object trajectories to define object-centric rewards. These rewards are used to train a reinforcement learning (RL) policy in simulation. The learned policy is then distilled into an image-conditioned diffusion policy using synthetic rollouts rendered with varied viewpoints and lighting. To transfer to the real world, X-Sim introduces an online domain adaptation technique that aligns real and simulated observations during deployment. Importantly, X-Sim does not require any robot teleoperation data. We evaluate it across 5 manipulation tasks in 2 environments and show that it: (1) improves task progress by 30% on average over hand-tracking and sim-to-real baselines, (2) matches behavior cloning with 10x less data collection time, and (3) generalizes to new camera viewpoints and test-time changes. Code and videos are available at https://portal-cornell.github.io/X-Sim/.

Summary

AI-Generated Summary

PDF32May 16, 2025