ChatPaper.aiChatPaper

GenSim2: Skalierung der Roboterdarstellung mit multimodalen und Schlussfolgerungs-LLMs.

GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs

October 4, 2024
Autoren: Pu Hua, Minghuan Liu, Annabella Macaluso, Yunfeng Lin, Weinan Zhang, Huazhe Xu, Lirui Wang
cs.AI

Zusammenfassung

Die robotergestützte Simulation bleibt heute eine Herausforderung in Bezug auf die Skalierung aufgrund der menschlichen Anstrengungen, die erforderlich sind, um vielfältige Simulationstasks und Szenen zu erstellen. Auch simulierte Richtlinien stoßen auf Skalierbarkeitsprobleme, da viele Sim-zu-Real-Methoden sich auf eine einzige Aufgabe konzentrieren. Um diesen Herausforderungen zu begegnen, schlägt diese Arbeit GenSim2 vor, ein skalierbares Framework, das die Codierung von LLMs mit multimodalen und Begründungsfähigkeiten zur Erstellung komplexer und realistischer Simulationstasks nutzt, einschließlich langfristiger Aufgaben mit artikulierten Objekten. Um automatisch Demonstrationsdaten für diese Aufgaben im großen Maßstab zu generieren, schlagen wir Planungs- und RL-Löser vor, die innerhalb von Objektkategorien generalisieren. Die Pipeline kann Daten für bis zu 100 artikulierte Aufgaben mit 200 Objekten generieren und den erforderlichen menschlichen Aufwand reduzieren. Um solche Daten zu nutzen, schlagen wir eine effektive mehrfachbedingte Richtlinienarchitektur vor, die als propriozeptiver Punkt-Wolken-Transformer (PPT) bezeichnet wird, der aus den generierten Demonstrationen lernt und eine starke Sim-zu-Real-Übertragung ohne vorheriges Training zeigt. Durch die Kombination der vorgeschlagenen Pipeline und der Richtlinienarchitektur zeigen wir eine vielversprechende Nutzung von GenSim2, bei der die generierten Daten für die Null-Schuss-Übertragung oder das Mittraining mit real gesammelten Daten verwendet werden können, was die Leistung der Richtlinie um 20% im Vergleich zum ausschließlichen Training mit begrenzten realen Daten verbessert.
English
Robotic simulation today remains challenging to scale up due to the human efforts required to create diverse simulation tasks and scenes. Simulation-trained policies also face scalability issues as many sim-to-real methods focus on a single task. To address these challenges, this work proposes GenSim2, a scalable framework that leverages coding LLMs with multi-modal and reasoning capabilities for complex and realistic simulation task creation, including long-horizon tasks with articulated objects. To automatically generate demonstration data for these tasks at scale, we propose planning and RL solvers that generalize within object categories. The pipeline can generate data for up to 100 articulated tasks with 200 objects and reduce the required human efforts. To utilize such data, we propose an effective multi-task language-conditioned policy architecture, dubbed proprioceptive point-cloud transformer (PPT), that learns from the generated demonstrations and exhibits strong sim-to-real zero-shot transfer. Combining the proposed pipeline and the policy architecture, we show a promising usage of GenSim2 that the generated data can be used for zero-shot transfer or co-train with real-world collected data, which enhances the policy performance by 20% compared with training exclusively on limited real data.

Summary

AI-Generated Summary

PDF32November 16, 2024