GenSim2 : Mise à l'échelle de la génération de données robotiques avec multimodalité et raisonnement LLM.
GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs
October 4, 2024
Auteurs: Pu Hua, Minghuan Liu, Annabella Macaluso, Yunfeng Lin, Weinan Zhang, Huazhe Xu, Lirui Wang
cs.AI
Résumé
La simulation robotique reste aujourd'hui difficile à mettre à l'échelle en raison des efforts humains nécessaires pour créer des tâches et des scènes de simulation diverses. Les politiques entraînées par simulation rencontrent également des problèmes de scalabilité car de nombreuses méthodes de simulation vers le réel se concentrent sur une seule tâche. Pour relever ces défis, ce travail propose GenSim2, un cadre évolutif qui exploite les LLMs de codage avec des capacités multimodales et de raisonnement pour la création de tâches de simulation complexes et réalistes, y compris des tâches à longue horizon avec des objets articulés. Pour générer automatiquement des données de démonstration pour ces tâches à grande échelle, nous proposons des solveurs de planification et de RL qui généralisent au sein de catégories d'objets. Le pipeline peut générer des données pour jusqu'à 100 tâches articulées avec 200 objets et réduire les efforts humains nécessaires. Pour utiliser de telles données, nous proposons une architecture de politique multi-tâches efficace conditionnée par le langage, appelée transformateur de nuage de points proprioceptif (PPT), qui apprend des démonstrations générées et présente un fort transfert zéro-shot de la simulation vers le réel. En combinant le pipeline proposé et l'architecture de politique, nous montrons une utilisation prometteuse de GenSim2 selon laquelle les données générées peuvent être utilisées pour un transfert zéro-shot ou pour un co-entraînement avec des données collectées dans le monde réel, ce qui améliore les performances de la politique de 20% par rapport à un entraînement exclusif sur des données réelles limitées.
English
Robotic simulation today remains challenging to scale up due to the human
efforts required to create diverse simulation tasks and scenes.
Simulation-trained policies also face scalability issues as many sim-to-real
methods focus on a single task. To address these challenges, this work proposes
GenSim2, a scalable framework that leverages coding LLMs with multi-modal and
reasoning capabilities for complex and realistic simulation task creation,
including long-horizon tasks with articulated objects. To automatically
generate demonstration data for these tasks at scale, we propose planning and
RL solvers that generalize within object categories. The pipeline can generate
data for up to 100 articulated tasks with 200 objects and reduce the required
human efforts. To utilize such data, we propose an effective multi-task
language-conditioned policy architecture, dubbed proprioceptive point-cloud
transformer (PPT), that learns from the generated demonstrations and exhibits
strong sim-to-real zero-shot transfer. Combining the proposed pipeline and the
policy architecture, we show a promising usage of GenSim2 that the generated
data can be used for zero-shot transfer or co-train with real-world collected
data, which enhances the policy performance by 20% compared with training
exclusively on limited real data.Summary
AI-Generated Summary