ChatPaper.aiChatPaper

SayPlan: Привязка крупных языковых моделей с использованием 3D графов сцен для масштабируемого планирования задач

SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Task Planning

July 12, 2023
Авторы: Krishan Rana, Jesse Haviland, Sourav Garg, Jad Abou-Chakra, Ian Reid, Niko Suenderhauf
cs.AI

Аннотация

Крупные языковые модели (LLM) продемонстрировали впечатляющие результаты в разработке универсальных агентов планирования для разнообразных задач. Однако реализация этих планов в обширных, многоэтажных и многокомнатных средах представляет собой значительную проблему для робототехники. Мы представляем SayPlan — масштабируемый подход к планированию крупномасштабных задач на основе LLM с использованием представлений в виде 3D графов сцены (3DSG). Для обеспечения масштабируемости нашего подхода мы: (1) используем иерархическую природу 3DSG, позволяя LLM проводить семантический поиск релевантных подграфов задач из сокращённого представления полного графа; (2) сокращаем горизонт планирования для LLM за счёт интеграции классического планировщика маршрутов и (3) вводим итеративный контур перепланирования, который уточняет начальный план с использованием обратной связи от симулятора графа сцены, исправляя невыполнимые действия и предотвращая сбои в планировании. Мы оцениваем наш подход на двух крупномасштабных средах, охватывающих до 3 этажей, 36 комнат и 140 объектов, и показываем, что наш подход способен реализовывать крупномасштабные долгосрочные планы задач на основе абстрактных и естественно-языковых инструкций для мобильного манипуляторного робота.
English
Large language models (LLMs) have demonstrated impressive results in developing generalist planning agents for diverse tasks. However, grounding these plans in expansive, multi-floor, and multi-room environments presents a significant challenge for robotics. We introduce SayPlan, a scalable approach to LLM-based, large-scale task planning for robotics using 3D scene graph (3DSG) representations. To ensure the scalability of our approach, we: (1) exploit the hierarchical nature of 3DSGs to allow LLMs to conduct a semantic search for task-relevant subgraphs from a smaller, collapsed representation of the full graph; (2) reduce the planning horizon for the LLM by integrating a classical path planner and (3) introduce an iterative replanning pipeline that refines the initial plan using feedback from a scene graph simulator, correcting infeasible actions and avoiding planning failures. We evaluate our approach on two large-scale environments spanning up to 3 floors, 36 rooms and 140 objects, and show that our approach is capable of grounding large-scale, long-horizon task plans from abstract, and natural language instruction for a mobile manipulator robot to execute.
PDF141December 15, 2024