GenSim2: Schaalbare Robotgegevensgeneratie met Multi-modale en Redenerende LLM's
GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs
October 4, 2024
Auteurs: Pu Hua, Minghuan Liu, Annabella Macaluso, Yunfeng Lin, Weinan Zhang, Huazhe Xu, Lirui Wang
cs.AI
Samenvatting
Robotische simulatie blijft vandaag de dag uitdagend om op te schalen vanwege de menselijke inspanningen die nodig zijn om diverse simulatietaken en scènes te creëren. Beleidslijnen getraind in simulaties ondervinden ook schaalbaarheidsproblemen omdat veel simulatie-naar-realiteit methoden zich richten op een enkele taak. Om deze uitdagingen aan te pakken, stelt dit werk GenSim2 voor, een schaalbaar raamwerk dat gebruikmaakt van coderende LLMs met multimodale en redeneervermogens voor het creëren van complexe en realistische simulatietaken, inclusief taken met lange termijn doelen met gearticuleerde objecten. Om automatisch demonstratiedata te genereren voor deze taken op grote schaal, stellen we planning en RL oplossers voor die generaliseren binnen objectcategorieën. De pijplijn kan data genereren voor maximaal 100 gearticuleerde taken met 200 objecten en de benodigde menselijke inspanningen verminderen. Om dergelijke data te benutten, stellen we een effectieve multi-taak taal-geconditioneerde beleidsarchitectuur voor, genaamd proprioceptieve puntwolktransformator (PPT), die leert van de gegenereerde demonstraties en sterke simulatie-naar-realiteit zero-shot overdracht vertoont. Door de voorgestelde pijplijn en de beleidsarchitectuur te combineren, tonen we een veelbelovend gebruik van GenSim2 waarbij de gegenereerde data kan worden gebruikt voor zero-shot overdracht of samen trainen met in de echte wereld verzamelde data, wat de beleidsprestaties met 20% verbetert in vergelijking met exclusieve training op beperkte echte data.
English
Robotic simulation today remains challenging to scale up due to the human
efforts required to create diverse simulation tasks and scenes.
Simulation-trained policies also face scalability issues as many sim-to-real
methods focus on a single task. To address these challenges, this work proposes
GenSim2, a scalable framework that leverages coding LLMs with multi-modal and
reasoning capabilities for complex and realistic simulation task creation,
including long-horizon tasks with articulated objects. To automatically
generate demonstration data for these tasks at scale, we propose planning and
RL solvers that generalize within object categories. The pipeline can generate
data for up to 100 articulated tasks with 200 objects and reduce the required
human efforts. To utilize such data, we propose an effective multi-task
language-conditioned policy architecture, dubbed proprioceptive point-cloud
transformer (PPT), that learns from the generated demonstrations and exhibits
strong sim-to-real zero-shot transfer. Combining the proposed pipeline and the
policy architecture, we show a promising usage of GenSim2 that the generated
data can be used for zero-shot transfer or co-train with real-world collected
data, which enhances the policy performance by 20% compared with training
exclusively on limited real data.Summary
AI-Generated Summary