CLEA: Geschlossener Regelkreis für verkörperte Agenten zur Verbesserung der Aufgabenausführung in dynamischen Umgebungen

papers.abstract

Große Sprachmodelle (LLMs) zeigen bemerkenswerte Fähigkeiten in der hierarchischen Zerlegung komplexer Aufgaben durch semantisches Schlussfolgern. Ihre Anwendung in verkörperten Systemen steht jedoch vor Herausforderungen bei der zuverlässigen Ausführung von Teilaufgabenfolgen und der Erreichung von One-Shot-Erfolg bei der langfristigen Aufgabenbewältigung. Um diese Einschränkungen in dynamischen Umgebungen zu überwinden, schlagen wir Closed-Loop Embodied Agent (CLEA) vor – eine neuartige Architektur, die vier spezialisierte Open-Source-LLMs mit funktionaler Entkopplung für das geschlossene Aufgabenmanagement integriert. Das Framework zeichnet sich durch zwei Kerninnovationen aus: (1) Ein interaktiver Aufgabenplaner, der dynamisch ausführbare Teilaufgaben basierend auf dem Umgebungsgedächtnis generiert, und (2) Ein multimodaler Ausführungskritiker, der ein Bewertungsframework einsetzt, um eine probabilistische Einschätzung der Handlungsdurchführbarkeit vorzunehmen und hierarchische Neuplanungsmechanismen auszulösen, wenn Umgebungsstörungen vorgegebene Schwellenwerte überschreiten. Um die Wirksamkeit von CLEA zu validieren, führen wir Experimente in einer realen Umgebung mit manipulierbaren Objekten durch, wobei zwei heterogene Roboter für Objektsuche, Manipulation und die Integration von Such- und Manipulationsaufgaben eingesetzt werden. Über 12 Aufgabenversuche hinweg übertrifft CLEA das Basismodell und erreicht eine Verbesserung der Erfolgsrate um 67,3 % und eine Steigerung der Aufgabenabschlussrate um 52,8 %. Diese Ergebnisse zeigen, dass CLEA die Robustheit der Aufgabenplanung und -ausführung in dynamischen Umgebungen erheblich verbessert.

English

Large Language Models (LLMs) exhibit remarkable capabilities in the hierarchical decomposition of complex tasks through semantic reasoning. However, their application in embodied systems faces challenges in ensuring reliable execution of subtask sequences and achieving one-shot success in long-term task completion. To address these limitations in dynamic environments, we propose Closed-Loop Embodied Agent (CLEA) -- a novel architecture incorporating four specialized open-source LLMs with functional decoupling for closed-loop task management. The framework features two core innovations: (1) Interactive task planner that dynamically generates executable subtasks based on the environmental memory, and (2) Multimodal execution critic employing an evaluation framework to conduct a probabilistic assessment of action feasibility, triggering hierarchical re-planning mechanisms when environmental perturbations exceed preset thresholds. To validate CLEA's effectiveness, we conduct experiments in a real environment with manipulable objects, using two heterogeneous robots for object search, manipulation, and search-manipulation integration tasks. Across 12 task trials, CLEA outperforms the baseline model, achieving a 67.3% improvement in success rate and a 52.8% increase in task completion rate. These results demonstrate that CLEA significantly enhances the robustness of task planning and execution in dynamic environments.

CLEA: Geschlossener Regelkreis für verkörperte Agenten zur Verbesserung der Aufgabenausführung in dynamischen Umgebungen

CLEA: Closed-Loop Embodied Agent for Enhancing Task Execution in Dynamic Environments

papers.abstract

Support