CLEA: Geschlossener Regelkreis für verkörperte Agenten zur Verbesserung der Aufgabenausführung in dynamischen Umgebungen
CLEA: Closed-Loop Embodied Agent for Enhancing Task Execution in Dynamic Environments
March 2, 2025
Autoren: Mingcong Lei, Ge Wang, Yiming Zhao, Zhixin Mai, Qing Zhao, Yao Guo, Zhen Li, Shuguang Cui, Yatong Han, Jinke Ren
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) zeigen bemerkenswerte Fähigkeiten in der hierarchischen Zerlegung komplexer Aufgaben durch semantisches Schlussfolgern. Ihre Anwendung in verkörperten Systemen steht jedoch vor Herausforderungen bei der zuverlässigen Ausführung von Teilaufgabenfolgen und der Erreichung von One-Shot-Erfolg bei der langfristigen Aufgabenbewältigung. Um diese Einschränkungen in dynamischen Umgebungen zu überwinden, schlagen wir Closed-Loop Embodied Agent (CLEA) vor – eine neuartige Architektur, die vier spezialisierte Open-Source-LLMs mit funktionaler Entkopplung für das geschlossene Aufgabenmanagement integriert. Das Framework zeichnet sich durch zwei Kerninnovationen aus: (1) Ein interaktiver Aufgabenplaner, der dynamisch ausführbare Teilaufgaben basierend auf dem Umgebungsgedächtnis generiert, und (2) Ein multimodaler Ausführungskritiker, der ein Bewertungsframework einsetzt, um eine probabilistische Einschätzung der Handlungsdurchführbarkeit vorzunehmen und hierarchische Neuplanungsmechanismen auszulösen, wenn Umgebungsstörungen vorgegebene Schwellenwerte überschreiten. Um die Wirksamkeit von CLEA zu validieren, führen wir Experimente in einer realen Umgebung mit manipulierbaren Objekten durch, wobei zwei heterogene Roboter für Objektsuche, Manipulation und die Integration von Such- und Manipulationsaufgaben eingesetzt werden. Über 12 Aufgabenversuche hinweg übertrifft CLEA das Basismodell und erreicht eine Verbesserung der Erfolgsrate um 67,3 % und eine Steigerung der Aufgabenabschlussrate um 52,8 %. Diese Ergebnisse zeigen, dass CLEA die Robustheit der Aufgabenplanung und -ausführung in dynamischen Umgebungen erheblich verbessert.
English
Large Language Models (LLMs) exhibit remarkable capabilities in the
hierarchical decomposition of complex tasks through semantic reasoning.
However, their application in embodied systems faces challenges in ensuring
reliable execution of subtask sequences and achieving one-shot success in
long-term task completion. To address these limitations in dynamic
environments, we propose Closed-Loop Embodied Agent (CLEA) -- a novel
architecture incorporating four specialized open-source LLMs with functional
decoupling for closed-loop task management. The framework features two core
innovations: (1) Interactive task planner that dynamically generates executable
subtasks based on the environmental memory, and (2) Multimodal execution critic
employing an evaluation framework to conduct a probabilistic assessment of
action feasibility, triggering hierarchical re-planning mechanisms when
environmental perturbations exceed preset thresholds. To validate CLEA's
effectiveness, we conduct experiments in a real environment with manipulable
objects, using two heterogeneous robots for object search, manipulation, and
search-manipulation integration tasks. Across 12 task trials, CLEA outperforms
the baseline model, achieving a 67.3% improvement in success rate and a 52.8%
increase in task completion rate. These results demonstrate that CLEA
significantly enhances the robustness of task planning and execution in dynamic
environments.Summary
AI-Generated Summary