CLEA: Gesloten-lus Belichaamde Agent voor het Verbeteren van Taakuitvoering in Dynamische Omgevingen
CLEA: Closed-Loop Embodied Agent for Enhancing Task Execution in Dynamic Environments
March 2, 2025
Auteurs: Mingcong Lei, Ge Wang, Yiming Zhao, Zhixin Mai, Qing Zhao, Yao Guo, Zhen Li, Shuguang Cui, Yatong Han, Jinke Ren
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) vertonen opmerkelijke capaciteiten in de hiërarchische decompositie van complexe taken door middel van semantisch redeneren. Hun toepassing in geëmbodieerde systemen stuit echter op uitdagingen bij het waarborgen van betrouwbare uitvoering van subtakensequenties en het bereiken van one-shot succes in langetermijntaakvoltooiing. Om deze beperkingen in dynamische omgevingen aan te pakken, stellen we Closed-Loop Embodied Agent (CLEA) voor – een nieuwe architectuur die vier gespecialiseerde open-source LLMs integreert met functionele ontkoppeling voor gesloten-lus taakbeheer. Het framework bevat twee kerninnovaties: (1) Een interactieve taakplanner die dynamisch uitvoerbare subtaken genereert op basis van het omgevingsgeheugen, en (2) Een multimodale uitvoeringscriticus die een evaluatieraamwerk gebruikt om een probabilistische beoordeling van actiehaalbaarheid uit te voeren, waarbij hiërarchische herplanningsmechanismen worden geactiveerd wanneer omgevingsverstoringen vooraf ingestelde drempels overschrijden. Om de effectiviteit van CLEA te valideren, voeren we experimenten uit in een echte omgeving met manipuleerbare objecten, waarbij we twee heterogene robots gebruiken voor objectzoek-, manipulatie- en zoek-manipulatie-integratietaken. Over 12 taakproeven heen presteert CLEA beter dan het basismodel, met een verbetering van 67,3% in succespercentage en een toename van 52,8% in taakvoltooiingspercentage. Deze resultaten tonen aan dat CLEA de robuustheid van taakplanning en -uitvoering in dynamische omgevingen aanzienlijk verbetert.
English
Large Language Models (LLMs) exhibit remarkable capabilities in the
hierarchical decomposition of complex tasks through semantic reasoning.
However, their application in embodied systems faces challenges in ensuring
reliable execution of subtask sequences and achieving one-shot success in
long-term task completion. To address these limitations in dynamic
environments, we propose Closed-Loop Embodied Agent (CLEA) -- a novel
architecture incorporating four specialized open-source LLMs with functional
decoupling for closed-loop task management. The framework features two core
innovations: (1) Interactive task planner that dynamically generates executable
subtasks based on the environmental memory, and (2) Multimodal execution critic
employing an evaluation framework to conduct a probabilistic assessment of
action feasibility, triggering hierarchical re-planning mechanisms when
environmental perturbations exceed preset thresholds. To validate CLEA's
effectiveness, we conduct experiments in a real environment with manipulable
objects, using two heterogeneous robots for object search, manipulation, and
search-manipulation integration tasks. Across 12 task trials, CLEA outperforms
the baseline model, achieving a 67.3% improvement in success rate and a 52.8%
increase in task completion rate. These results demonstrate that CLEA
significantly enhances the robustness of task planning and execution in dynamic
environments.Summary
AI-Generated Summary