ChatPaper.aiChatPaper

GenSim2: Escalando a Geração de Dados de Robôs com Multi-modalidade e Raciocínio LLMs

GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs

October 4, 2024
Autores: Pu Hua, Minghuan Liu, Annabella Macaluso, Yunfeng Lin, Weinan Zhang, Huazhe Xu, Lirui Wang
cs.AI

Resumo

A simulação robótica hoje em dia continua sendo desafiadora de escalar devido aos esforços humanos necessários para criar tarefas e cenas de simulação diversas. As políticas treinadas em simulação também enfrentam problemas de escalabilidade, já que muitos métodos de simulação para o mundo real se concentram em uma única tarefa. Para enfrentar esses desafios, este trabalho propõe o GenSim2, um framework escalável que aproveita Modelos de Linguagem com Codificação (LLMs) com capacidades multimodais e de raciocínio para a criação de tarefas de simulação complexas e realistas, incluindo tarefas de longo horizonte com objetos articulados. Para gerar automaticamente dados de demonstração para essas tarefas em escala, propomos planejadores e solucionadores de RL que generalizam dentro de categorias de objetos. O pipeline pode gerar dados para até 100 tarefas articuladas com 200 objetos e reduzir os esforços humanos necessários. Para utilizar tais dados, propomos uma arquitetura de política eficaz condicionada à linguagem multi-tarefa, denominada transformador de nuvem de pontos proprioceptivos (PPT), que aprende com as demonstrações geradas e apresenta forte transferência de simulação para o mundo real sem treinamento. Combinando o pipeline proposto e a arquitetura de política, demonstramos um uso promissor do GenSim2, onde os dados gerados podem ser usados para transferência sem treinamento ou co-treinados com dados coletados do mundo real, o que melhora o desempenho da política em 20% em comparação com o treinamento exclusivamente em dados reais limitados.
English
Robotic simulation today remains challenging to scale up due to the human efforts required to create diverse simulation tasks and scenes. Simulation-trained policies also face scalability issues as many sim-to-real methods focus on a single task. To address these challenges, this work proposes GenSim2, a scalable framework that leverages coding LLMs with multi-modal and reasoning capabilities for complex and realistic simulation task creation, including long-horizon tasks with articulated objects. To automatically generate demonstration data for these tasks at scale, we propose planning and RL solvers that generalize within object categories. The pipeline can generate data for up to 100 articulated tasks with 200 objects and reduce the required human efforts. To utilize such data, we propose an effective multi-task language-conditioned policy architecture, dubbed proprioceptive point-cloud transformer (PPT), that learns from the generated demonstrations and exhibits strong sim-to-real zero-shot transfer. Combining the proposed pipeline and the policy architecture, we show a promising usage of GenSim2 that the generated data can be used for zero-shot transfer or co-train with real-world collected data, which enhances the policy performance by 20% compared with training exclusively on limited real data.

Summary

AI-Generated Summary

PDF32November 16, 2024