SayPlan: Fondare i Modelli Linguistici di Grande Scala su Grafi di Scena 3D per la Pianificazione Scalabile di Attività

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato risultati impressionanti nello sviluppo di agenti di pianificazione generalisti per compiti diversificati. Tuttavia, l'ancoraggio di questi piani in ambienti estesi, multi-piano e multi-stanza rappresenta una sfida significativa per la robotica. Introduciamo SayPlan, un approccio scalabile alla pianificazione di compiti su larga scala basata su LLM per la robotica, utilizzando rappresentazioni di grafi di scena 3D (3DSG). Per garantire la scalabilità del nostro approccio, abbiamo: (1) sfruttato la natura gerarchica dei 3DSG per consentire agli LLM di condurre una ricerca semantica di sottografi rilevanti per il compito a partire da una rappresentazione ridotta e collassata del grafo completo; (2) ridotto l'orizzonte di pianificazione per l'LLM integrando un pianificatore di percorso classico e (3) introdotto una pipeline di ripianificazione iterativa che affina il piano iniziale utilizzando feedback da un simulatore di grafi di scena, correggendo azioni non fattibili ed evitando fallimenti nella pianificazione. Valutiamo il nostro approccio su due ambienti su larga scala che coprono fino a 3 piani, 36 stanze e 140 oggetti, e dimostriamo che il nostro approccio è in grado di ancorare piani di compiti su larga scala e a lungo orizzonte da istruzioni astratte e in linguaggio naturale per l'esecuzione da parte di un robot manipolatore mobile.

English

Large language models (LLMs) have demonstrated impressive results in developing generalist planning agents for diverse tasks. However, grounding these plans in expansive, multi-floor, and multi-room environments presents a significant challenge for robotics. We introduce SayPlan, a scalable approach to LLM-based, large-scale task planning for robotics using 3D scene graph (3DSG) representations. To ensure the scalability of our approach, we: (1) exploit the hierarchical nature of 3DSGs to allow LLMs to conduct a semantic search for task-relevant subgraphs from a smaller, collapsed representation of the full graph; (2) reduce the planning horizon for the LLM by integrating a classical path planner and (3) introduce an iterative replanning pipeline that refines the initial plan using feedback from a scene graph simulator, correcting infeasible actions and avoiding planning failures. We evaluate our approach on two large-scale environments spanning up to 3 floors, 36 rooms and 140 objects, and show that our approach is capable of grounding large-scale, long-horizon task plans from abstract, and natural language instruction for a mobile manipulator robot to execute.

SayPlan: Fondare i Modelli Linguistici di Grande Scala su Grafi di Scena 3D per la Pianificazione Scalabile di Attività

SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Task Planning

Abstract

Support