ChatPaper.aiChatPaper

X-Sim: Cross-Embodiment-Lernen über Real-zu-Sim-zu-Real

X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real

May 11, 2025
Autoren: Prithwish Dan, Kushal Kedia, Angela Chao, Edward Weiyi Duan, Maximus Adrian Pace, Wei-Chiu Ma, Sanjiban Choudhury
cs.AI

Zusammenfassung

Menschliche Videos bieten eine skalierbare Möglichkeit, Robotermanipulationsstrategien zu trainieren, jedoch fehlen die Aktionslabels, die von standardmäßigen Imitationslernalgorithmen benötigt werden. Bestehende Ansätze zur Cross-Embodiment-Abbildung versuchen, menschliche Bewegungen auf Roboteraktionen abzubilden, scheitern jedoch oft, wenn die Embodiments erheblich voneinander abweichen. Wir schlagen X-Sim vor, ein Real-to-Sim-to-Real-Framework, das die Objektbewegung als dichtes und übertragbares Signal für das Erlernen von Roboterstrategien nutzt. X-Sim beginnt mit der Rekonstruktion einer fotorealistischen Simulation aus einem RGBD-Menschvideo und verfolgt Objekttrajektorien, um objektzentrierte Belohnungen zu definieren. Diese Belohnungen werden verwendet, um eine Reinforcement-Learning (RL)-Strategie in der Simulation zu trainieren. Die gelernte Strategie wird dann in eine bildgesteuerte Diffusionsstrategie destilliert, indem synthetische Rollouts mit variierten Blickwinkeln und Beleuchtungen gerendert werden. Um den Transfer in die reale Welt zu ermöglichen, führt X-Sim eine Online-Domänenanpassungstechnik ein, die reale und simulierte Beobachtungen während des Einsatzes ausrichtet. Wichtig ist, dass X-Sim keine Roboterteleoperationsdaten benötigt. Wir evaluieren es über 5 Manipulationsaufgaben in 2 Umgebungen und zeigen, dass es: (1) den Aufgabenfortschritt im Durchschnitt um 30 % gegenüber Hand-Tracking- und Sim-to-Real-Baselines verbessert, (2) das Verhaltensklonen mit 10-fach weniger Datenerfassungszeit erreicht und (3) auf neue Kamerablickwinkel und Testzeitänderungen verallgemeinert. Code und Videos sind verfügbar unter https://portal-cornell.github.io/X-Sim/.
English
Human videos offer a scalable way to train robot manipulation policies, but lack the action labels needed by standard imitation learning algorithms. Existing cross-embodiment approaches try to map human motion to robot actions, but often fail when the embodiments differ significantly. We propose X-Sim, a real-to-sim-to-real framework that uses object motion as a dense and transferable signal for learning robot policies. X-Sim starts by reconstructing a photorealistic simulation from an RGBD human video and tracking object trajectories to define object-centric rewards. These rewards are used to train a reinforcement learning (RL) policy in simulation. The learned policy is then distilled into an image-conditioned diffusion policy using synthetic rollouts rendered with varied viewpoints and lighting. To transfer to the real world, X-Sim introduces an online domain adaptation technique that aligns real and simulated observations during deployment. Importantly, X-Sim does not require any robot teleoperation data. We evaluate it across 5 manipulation tasks in 2 environments and show that it: (1) improves task progress by 30% on average over hand-tracking and sim-to-real baselines, (2) matches behavior cloning with 10x less data collection time, and (3) generalizes to new camera viewpoints and test-time changes. Code and videos are available at https://portal-cornell.github.io/X-Sim/.

Summary

AI-Generated Summary

PDF32May 16, 2025