SIM1: Физически выровненный симулятор как масштабатор данных с нулевым обучением в деформируемых мирах
SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds
April 9, 2026
Авторы: Yunsong Zhou, Hangxu Liu, Xuekun Jiang, Xing Shen, Yuanzhen Zhou, Hui Wang, Baole Fang, Yang Tian, Mulin Yu, Qiaojun Yu, Li Ma, Hengjie Li, Hanqing Wang, Jia Zeng, Jiangmiao Pang
cs.AI
Аннотация
Манипуляция роботов с деформируемыми объектами представляет собой режим обучения с воплощенным интеллектом, требующий больших объемов данных, в котором форма, контакт и топология совместно эволюционируют способами, далеко превосходящими изменчивость жестких тел. Хотя моделирование сулит избавление от затрат на сбор данных в реальном мире, преобладающие подходы "sim-to-real" остаются основанными на абстракциях твердого тела, порождая несоответствующую геометрию, хрупкую мягкую динамику и двигательные примитивы, плохо подходящие для взаимодействия с тканью. Мы полагаем, что моделирование терпит неудачу не потому, что оно синтетическое, а потому, что оно не обосновано реальностью. Для решения этой проблемы мы представляем SIM1, механизм обработки данных по схеме "real-to-sim-to-real", согласованный с физикой, который обосновывает моделирование в физическом мире. При наличии ограниченного числа демонстраций система оцифровывает сцены в метрически согласованные двойники, калибрует деформируемую динамику с помощью упругого моделирования и расширяет поведение за счет диффузионного генератора траекторий с фильтрацией по качеству. Этот конвейер преобразует разреженные наблюдения в масштабируемый синтетический надзор с точностью, близкой к демонстрационной. Эксперименты показывают, что политики, обученные исключительно на синтетических данных, достигают паритета с базовыми уровнями, обученными на реальных данных, при коэффициенте эквивалентности 1:15, одновременно демонстрируя 90% успешности в режиме "zero-shot" и 50% прирост обобщающей способности при развертывании в реальном мире. Эти результаты подтверждают, что моделирование, согласованное с физикой, является масштабируемым методом надзора для манипуляций с деформируемыми объектами и практическим путем для обучения политик с высокой эффективностью использования данных.
English
Robotic manipulation with deformable objects represents a data-intensive regime in embodied learning, where shape, contact, and topology co-evolve in ways that far exceed the variability of rigids. Although simulation promises relief from the cost of real-world data acquisition, prevailing sim-to-real pipelines remain rooted in rigid-body abstractions, producing mismatched geometry, fragile soft dynamics, and motion primitives poorly suited for cloth interaction. We posit that simulation fails not for being synthetic, but for being ungrounded. To address this, we introduce SIM1, a physics-aligned real-to-sim-to-real data engine that grounds simulation in the physical world. Given limited demonstrations, the system digitizes scenes into metric-consistent twins, calibrates deformable dynamics through elastic modeling, and expands behaviors via diffusion-based trajectory generation with quality filtering. This pipeline transforms sparse observations into scaled synthetic supervision with near-demonstration fidelity. Experiments show that policies trained on purely synthetic data achieve parity with real-data baselines at a 1:15 equivalence ratio, while delivering 90% zero-shot success and 50% generalization gains in real-world deployment. These results validate physics-aligned simulation as scalable supervision for deformable manipulation and a practical pathway for data-efficient policy learning.