X-Sim: Межматериальное обучение через подход "реальное-к-симуляции-к-реальному"
X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real
May 11, 2025
Авторы: Prithwish Dan, Kushal Kedia, Angela Chao, Edward Weiyi Duan, Maximus Adrian Pace, Wei-Chiu Ma, Sanjiban Choudhury
cs.AI
Аннотация
Видеозаписи действий человека предоставляют масштабируемый способ обучения политик манипуляции роботов, однако в них отсутствуют метки действий, необходимые для стандартных алгоритмов обучения с подражанием. Существующие подходы, основанные на кросс-эмбодименте, пытаются сопоставить движения человека с действиями робота, но часто терпят неудачу, когда эмбодименты значительно различаются. Мы предлагаем X-Sim — фреймворк "реальность-симуляция-реальность", который использует движение объектов как плотный и переносимый сигнал для обучения политик роботов. X-Sim начинается с реконструкции фотореалистичной симуляции из RGBD-видео человека и отслеживания траекторий объектов для определения объектно-ориентированных вознаграждений. Эти вознаграждения используются для обучения политики с подкреплением (RL) в симуляции. Затем обученная политика преобразуется в диффузионную политику, зависящую от изображений, с использованием синтетических прогонов, отрендеренных с различных точек зрения и освещения. Для переноса в реальный мир X-Sim вводит технику онлайн-адаптации домена, которая выравнивает реальные и симулированные наблюдения во время выполнения задач. Важно отметить, что X-Sim не требует данных телеоперации роботов. Мы оцениваем его на 5 задачах манипуляции в 2 средах и показываем, что он: (1) улучшает прогресс выполнения задач в среднем на 30% по сравнению с базовыми методами отслеживания рук и "симуляция-реальность", (2) соответствует обучению с подражанием при 10-кратном сокращении времени сбора данных и (3) обобщается на новые точки зрения камеры и изменения во время тестирования. Код и видео доступны по адресу https://portal-cornell.github.io/X-Sim/.
English
Human videos offer a scalable way to train robot manipulation policies, but
lack the action labels needed by standard imitation learning algorithms.
Existing cross-embodiment approaches try to map human motion to robot actions,
but often fail when the embodiments differ significantly. We propose X-Sim, a
real-to-sim-to-real framework that uses object motion as a dense and
transferable signal for learning robot policies. X-Sim starts by reconstructing
a photorealistic simulation from an RGBD human video and tracking object
trajectories to define object-centric rewards. These rewards are used to train
a reinforcement learning (RL) policy in simulation. The learned policy is then
distilled into an image-conditioned diffusion policy using synthetic rollouts
rendered with varied viewpoints and lighting. To transfer to the real world,
X-Sim introduces an online domain adaptation technique that aligns real and
simulated observations during deployment. Importantly, X-Sim does not require
any robot teleoperation data. We evaluate it across 5 manipulation tasks in 2
environments and show that it: (1) improves task progress by 30% on average
over hand-tracking and sim-to-real baselines, (2) matches behavior cloning with
10x less data collection time, and (3) generalizes to new camera viewpoints and
test-time changes. Code and videos are available at
https://portal-cornell.github.io/X-Sim/.Summary
AI-Generated Summary