ChatPaper.aiChatPaper

SayPlan: Verankerung großer Sprachmodelle mithilfe von 3D-Szenengraphen für skalierbare Aufgabenplanung

SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Task Planning

July 12, 2023
Autoren: Krishan Rana, Jesse Haviland, Sourav Garg, Jad Abou-Chakra, Ian Reid, Niko Suenderhauf
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben beeindruckende Ergebnisse bei der Entwicklung von universellen Planungsagenten für diverse Aufgaben gezeigt. Die Verankerung dieser Pläne in umfangreichen, mehrstöckigen und mehrräumigen Umgebungen stellt jedoch eine erhebliche Herausforderung für die Robotik dar. Wir stellen SayPlan vor, einen skalierbaren Ansatz für die großflächige Aufgabenplanung in der Robotik auf Basis von LLMs unter Verwendung von 3D-Szenengraph (3DSG)-Darstellungen. Um die Skalierbarkeit unseres Ansatzes zu gewährleisten, gehen wir wie folgt vor: (1) Wir nutzen die hierarchische Struktur von 3DSGs, um LLMs eine semantische Suche nach aufgabenrelevanten Teilgraphen aus einer kleineren, reduzierten Darstellung des vollständigen Graphen zu ermöglichen; (2) Wir verkürzen den Planungshorizont für das LLM durch die Integration eines klassischen Pfadplaners und (3) Wir führen eine iterative Replanungs-Pipeline ein, die den initialen Plan mithilfe von Feedback eines Szenengraph-Simulators verfeinert, indem nicht durchführbare Aktionen korrigiert und Planungsfehler vermieden werden. Wir evaluieren unseren Ansatz in zwei großflächigen Umgebungen, die bis zu 3 Etagen, 36 Räume und 140 Objekte umfassen, und zeigen, dass unser Ansatz in der Lage ist, großflächige, langfristige Aufgabenpläne aus abstrakten und natürlichen Sprachanweisungen für einen mobilen Manipulatorroboter zu verankern und auszuführen.
English
Large language models (LLMs) have demonstrated impressive results in developing generalist planning agents for diverse tasks. However, grounding these plans in expansive, multi-floor, and multi-room environments presents a significant challenge for robotics. We introduce SayPlan, a scalable approach to LLM-based, large-scale task planning for robotics using 3D scene graph (3DSG) representations. To ensure the scalability of our approach, we: (1) exploit the hierarchical nature of 3DSGs to allow LLMs to conduct a semantic search for task-relevant subgraphs from a smaller, collapsed representation of the full graph; (2) reduce the planning horizon for the LLM by integrating a classical path planner and (3) introduce an iterative replanning pipeline that refines the initial plan using feedback from a scene graph simulator, correcting infeasible actions and avoiding planning failures. We evaluate our approach on two large-scale environments spanning up to 3 floors, 36 rooms and 140 objects, and show that our approach is capable of grounding large-scale, long-horizon task plans from abstract, and natural language instruction for a mobile manipulator robot to execute.
PDF141December 15, 2024