GenSim2: Escalando la Generación de Datos de Robots con Multi-modalidad y Razonamiento LLMs
GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs
October 4, 2024
Autores: Pu Hua, Minghuan Liu, Annabella Macaluso, Yunfeng Lin, Weinan Zhang, Huazhe Xu, Lirui Wang
cs.AI
Resumen
La simulación robótica sigue siendo desafiante de escalar hoy en día debido a los esfuerzos humanos necesarios para crear diversas tareas y escenarios de simulación. Las políticas entrenadas en simulación también enfrentan problemas de escalabilidad, ya que muchos métodos de simulación a realidad se centran en una sola tarea. Para abordar estos desafíos, este trabajo propone GenSim2, un marco escalable que aprovecha modelos de lenguaje con capacidad multimodal y de razonamiento para la creación de tareas de simulación complejas y realistas, incluidas tareas de largo horizonte con objetos articulados. Para generar automáticamente datos de demostración para estas tareas a gran escala, proponemos planificadores y solucionadores de RL que generalizan dentro de categorías de objetos. El proceso puede generar datos para hasta 100 tareas articuladas con 200 objetos y reducir los esfuerzos humanos requeridos. Para utilizar dichos datos, proponemos una arquitectura de política efectiva condicionada al lenguaje multitarea, denominada transformador de nube de puntos propioceptivo (PPT), que aprende de las demostraciones generadas y muestra una fuerte transferencia de simulación a realidad sin entrenamiento. Combinando el proceso propuesto y la arquitectura de política, mostramos un uso prometedor de GenSim2 en el que los datos generados pueden ser utilizados para transferencia sin entrenamiento o co-entrenamiento con datos recolectados del mundo real, lo que mejora el rendimiento de la política en un 20% en comparación con el entrenamiento exclusivo con datos reales limitados.
English
Robotic simulation today remains challenging to scale up due to the human
efforts required to create diverse simulation tasks and scenes.
Simulation-trained policies also face scalability issues as many sim-to-real
methods focus on a single task. To address these challenges, this work proposes
GenSim2, a scalable framework that leverages coding LLMs with multi-modal and
reasoning capabilities for complex and realistic simulation task creation,
including long-horizon tasks with articulated objects. To automatically
generate demonstration data for these tasks at scale, we propose planning and
RL solvers that generalize within object categories. The pipeline can generate
data for up to 100 articulated tasks with 200 objects and reduce the required
human efforts. To utilize such data, we propose an effective multi-task
language-conditioned policy architecture, dubbed proprioceptive point-cloud
transformer (PPT), that learns from the generated demonstrations and exhibits
strong sim-to-real zero-shot transfer. Combining the proposed pipeline and the
policy architecture, we show a promising usage of GenSim2 that the generated
data can be used for zero-shot transfer or co-train with real-world collected
data, which enhances the policy performance by 20% compared with training
exclusively on limited real data.Summary
AI-Generated Summary