GenSim2: Масштабирование генерации данных роботов с мультимодальным и рассуждениями LLMs.
GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs
October 4, 2024
Авторы: Pu Hua, Minghuan Liu, Annabella Macaluso, Yunfeng Lin, Weinan Zhang, Huazhe Xu, Lirui Wang
cs.AI
Аннотация
Сегодня создание роботизированных симуляций остается сложной задачей для масштабирования из-за необходимости человеческих усилий для создания разнообразных симуляционных задач и сцен. Политики, обученные на симуляциях, также сталкиваются с проблемами масштабируемости, поскольку многие методы симуляции к реальности сосредотачиваются на одной задаче. Для решения этих проблем данная работа предлагает GenSim2, масштабируемую платформу, которая использует кодирование LLMs с мультимодальными и рассуждающими способностями для создания сложных и реалистичных симуляционных задач, включая задачи с длинным горизонтом и артикулированными объектами. Для автоматического создания демонстрационных данных для этих задач в масштабе мы предлагаем планирование и RL-решатели, которые обобщаются внутри категорий объектов. Пайплайн может генерировать данные для до 100 артикулированных задач с 200 объектами и сокращает необходимые человеческие усилия. Для использования таких данных мы предлагаем эффективную многозадачную архитектуру политики, названную проприоцептивным облаком точек трансформера (PPT), которая учится на созданных демонстрациях и демонстрирует сильную передачу из симуляции в реальность без обучения. Комбинируя предложенный пайплайн и архитектуру политики, мы демонстрируем многообещающее использование GenSim2, где созданные данные могут быть использованы для передачи без обучения или совместного обучения с данными, собранными в реальном мире, что улучшает производительность политики на 20% по сравнению с обучением исключительно на ограниченных реальных данных.
English
Robotic simulation today remains challenging to scale up due to the human
efforts required to create diverse simulation tasks and scenes.
Simulation-trained policies also face scalability issues as many sim-to-real
methods focus on a single task. To address these challenges, this work proposes
GenSim2, a scalable framework that leverages coding LLMs with multi-modal and
reasoning capabilities for complex and realistic simulation task creation,
including long-horizon tasks with articulated objects. To automatically
generate demonstration data for these tasks at scale, we propose planning and
RL solvers that generalize within object categories. The pipeline can generate
data for up to 100 articulated tasks with 200 objects and reduce the required
human efforts. To utilize such data, we propose an effective multi-task
language-conditioned policy architecture, dubbed proprioceptive point-cloud
transformer (PPT), that learns from the generated demonstrations and exhibits
strong sim-to-real zero-shot transfer. Combining the proposed pipeline and the
policy architecture, we show a promising usage of GenSim2 that the generated
data can be used for zero-shot transfer or co-train with real-world collected
data, which enhances the policy performance by 20% compared with training
exclusively on limited real data.Summary
AI-Generated Summary