Сплаттинг физических сцен: сквозной переход от реальности к симуляции на основе неидеальных роботизированных данных
Splatting Physical Scenes: End-to-End Real-to-Sim from Imperfect Robot Data
June 4, 2025
Авторы: Ben Moran, Mauro Comi, Steven Bohez, Tom Erez, Zhibin Li, Leonard Hasenclever
cs.AI
Аннотация
Создание точных физических симуляций непосредственно на основе движений реальных роботов представляет большую ценность для безопасного, масштабируемого и доступного обучения роботов, однако остается исключительно сложной задачей. Данные, полученные от реальных роботов, страдают от окклюзий, шумных позиций камер и динамических элементов сцены, что затрудняет создание геометрически точных и фотореалистичных цифровых двойников неизвестных объектов. Мы представляем новый подход real-to-sim, который одновременно решает все эти проблемы. Ключевая идея заключается в гибридном представлении сцены, объединяющем фотореалистичный рендеринг на основе 3D Gaussian Splatting с явными мешами объектов, подходящими для физической симуляции, в рамках единого представления. Мы предлагаем сквозной процесс оптимизации, который использует дифференцируемый рендеринг и дифференцируемую физику в MuJoCo для совместного уточнения всех компонентов сцены — от геометрии и внешнего вида объектов до поз роботов и физических параметров — непосредственно на основе сырых и неточных траекторий роботов. Такая унифицированная оптимизация позволяет одновременно достигать высокоточной реконструкции мешей объектов, генерировать фотореалистичные новые виды и выполнять калибровку поз роботов без аннотаций. Мы демонстрируем эффективность нашего подхода как в симуляции, так и на сложных реальных последовательностях с использованием двуручного манипулятора ALOHA 2, что делает pipelines real-to-simulation более практичными и надежными.
English
Creating accurate, physical simulations directly from real-world robot motion
holds great value for safe, scalable, and affordable robot learning, yet
remains exceptionally challenging. Real robot data suffers from occlusions,
noisy camera poses, dynamic scene elements, which hinder the creation of
geometrically accurate and photorealistic digital twins of unseen objects. We
introduce a novel real-to-sim framework tackling all these challenges at once.
Our key insight is a hybrid scene representation merging the photorealistic
rendering of 3D Gaussian Splatting with explicit object meshes suitable for
physics simulation within a single representation. We propose an end-to-end
optimization pipeline that leverages differentiable rendering and
differentiable physics within MuJoCo to jointly refine all scene components -
from object geometry and appearance to robot poses and physical parameters -
directly from raw and imprecise robot trajectories. This unified optimization
allows us to simultaneously achieve high-fidelity object mesh reconstruction,
generate photorealistic novel views, and perform annotation-free robot pose
calibration. We demonstrate the effectiveness of our approach both in
simulation and on challenging real-world sequences using an ALOHA 2 bi-manual
manipulator, enabling more practical and robust real-to-simulation pipelines.