GenSim2: Scalare la generazione di dati robotici con multi-modalità e ragionamento LLMs.
GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs
October 4, 2024
Autori: Pu Hua, Minghuan Liu, Annabella Macaluso, Yunfeng Lin, Weinan Zhang, Huazhe Xu, Lirui Wang
cs.AI
Abstract
La simulazione robotica oggi rimane difficile da scalare a causa degli sforzi umani necessari per creare diverse attività e scenari di simulazione. Le politiche addestrate tramite simulazione affrontano anche problemi di scalabilità poiché molti metodi sim-to-real si concentrano su un singolo compito. Per affrontare queste sfide, questo lavoro propone GenSim2, un framework scalabile che sfrutta i modelli di linguaggio con codifica (LLM) con capacità multi-modalità e di ragionamento per la creazione di compiti di simulazione complessi e realistici, inclusi compiti a lungo termine con oggetti articolati. Per generare automaticamente dati dimostrativi per questi compiti su larga scala, proponiamo risolutori di pianificazione e RL che generalizzano all'interno delle categorie di oggetti. Il processo può generare dati per un massimo di 100 compiti articolati con 200 oggetti e ridurre gli sforzi umani richiesti. Per utilizzare tali dati, proponiamo un'efficace architettura di politica condizionata al linguaggio multi-task, denominata trasformatore di nuvola di punti propriocettivi (PPT), che apprende dalle dimostrazioni generate e mostra una forte trasferibilità zero-shot da simulazione a realtà. Combinando il processo proposto e l'architettura della politica, mostriamo un uso promettente di GenSim2 in cui i dati generati possono essere utilizzati per il trasferimento zero-shot o per il co-addestramento con dati raccolti nel mondo reale, migliorando le prestazioni della politica del 20% rispetto all'addestramento esclusivamente su dati reali limitati.
English
Robotic simulation today remains challenging to scale up due to the human
efforts required to create diverse simulation tasks and scenes.
Simulation-trained policies also face scalability issues as many sim-to-real
methods focus on a single task. To address these challenges, this work proposes
GenSim2, a scalable framework that leverages coding LLMs with multi-modal and
reasoning capabilities for complex and realistic simulation task creation,
including long-horizon tasks with articulated objects. To automatically
generate demonstration data for these tasks at scale, we propose planning and
RL solvers that generalize within object categories. The pipeline can generate
data for up to 100 articulated tasks with 200 objects and reduce the required
human efforts. To utilize such data, we propose an effective multi-task
language-conditioned policy architecture, dubbed proprioceptive point-cloud
transformer (PPT), that learns from the generated demonstrations and exhibits
strong sim-to-real zero-shot transfer. Combining the proposed pipeline and the
policy architecture, we show a promising usage of GenSim2 that the generated
data can be used for zero-shot transfer or co-train with real-world collected
data, which enhances the policy performance by 20% compared with training
exclusively on limited real data.