Real2Render2Real: Масштабирование данных для роботов без использования симуляции динамики или роботизированного оборудования
Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware
May 14, 2025
Авторы: Justin Yu, Letian Fu, Huang Huang, Karim El-Refai, Rares Andrei Ambrus, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg
cs.AI
Аннотация
Масштабирование обучения роботов требует обширных и разнообразных наборов данных. Однако преобладающий подход к сбору данных — телеоперация человеком — остается дорогостоящим и ограниченным ручным трудом и доступом к физическим роботам. Мы представляем Real2Render2Real (R2R2R), новый подход для генерации данных для обучения роботов, который не полагается на симуляцию динамики объектов или телеоперацию роботизированного оборудования. Входными данными являются сканирование одного или нескольких объектов, выполненное с помощью смартфона, и одно видео с демонстрацией человека. R2R2R создает тысячи высококачественных, независимых от робота демонстраций, восстанавливая детальную 3D-геометрию и внешний вид объектов, а также отслеживая 6-степенную свободу движения объектов. R2R2R использует 3D Gaussian Splatting (3DGS) для гибкой генерации ресурсов и синтеза траекторий как для жестких, так и для шарнирных объектов, преобразуя эти представления в сетки для обеспечения совместимости с масштабируемыми движками рендеринга, такими как IsaacLab, но с отключенным моделированием столкновений. Данные демонстраций роботов, сгенерированные R2R2R, напрямую интегрируются с моделями, которые работают с проприоцептивными состояниями роботов и визуальными наблюдениями, такими как модели "визуальный язык-действие" (VLA) и политики обучения с подражанием. Физические эксперименты показывают, что модели, обученные на данных R2R2R, полученных из одной демонстрации человека, могут соответствовать производительности моделей, обученных на 150 демонстрациях с телеоперацией человеком. Страница проекта: https://real2render2real.com
English
Scaling robot learning requires vast and diverse datasets. Yet the prevailing
data collection paradigm-human teleoperation-remains costly and constrained by
manual effort and physical robot access. We introduce Real2Render2Real (R2R2R),
a novel approach for generating robot training data without relying on object
dynamics simulation or teleoperation of robot hardware. The input is a
smartphone-captured scan of one or more objects and a single video of a human
demonstration. R2R2R renders thousands of high visual fidelity robot-agnostic
demonstrations by reconstructing detailed 3D object geometry and appearance,
and tracking 6-DoF object motion. R2R2R uses 3D Gaussian Splatting (3DGS) to
enable flexible asset generation and trajectory synthesis for both rigid and
articulated objects, converting these representations to meshes to maintain
compatibility with scalable rendering engines like IsaacLab but with collision
modeling off. Robot demonstration data generated by R2R2R integrates directly
with models that operate on robot proprioceptive states and image observations,
such as vision-language-action models (VLA) and imitation learning policies.
Physical experiments suggest that models trained on R2R2R data from a single
human demonstration can match the performance of models trained on 150 human
teleoperation demonstrations. Project page: https://real2render2real.comSummary
AI-Generated Summary