CLEA: Agente Embodied a Ciclo Chiuso per il Miglioramento dell'Esecuzione di Compiti in Ambienti Dinamici
CLEA: Closed-Loop Embodied Agent for Enhancing Task Execution in Dynamic Environments
March 2, 2025
Autori: Mingcong Lei, Ge Wang, Yiming Zhao, Zhixin Mai, Qing Zhao, Yao Guo, Zhen Li, Shuguang Cui, Yatong Han, Jinke Ren
cs.AI
Abstract
I Large Language Model (LLM) dimostrano capacità notevoli nella scomposizione gerarchica di compiti complessi attraverso il ragionamento semantico. Tuttavia, la loro applicazione in sistemi embodied incontra sfide nel garantire un'esecuzione affidabile di sequenze di sottotask e nel raggiungere il successo in un solo tentativo nel completamento di task a lungo termine. Per affrontare queste limitazioni in ambienti dinamici, proponiamo Closed-Loop Embodied Agent (CLEA) -- una nuova architettura che incorpora quattro LLM open-source specializzati con disaccoppiamento funzionale per la gestione di task in ciclo chiuso. Il framework presenta due innovazioni principali: (1) Un pianificatore di task interattivo che genera dinamicamente sottotask eseguibili basandosi sulla memoria ambientale, e (2) Un critico di esecuzione multimodale che utilizza un framework di valutazione per condurre una valutazione probabilistica della fattibilità delle azioni, attivando meccanismi di ri-pianificazione gerarchica quando le perturbazioni ambientali superano soglie predefinite. Per validare l'efficacia di CLEA, conduciamo esperimenti in un ambiente reale con oggetti manipolabili, utilizzando due robot eterogenei per task di ricerca, manipolazione e integrazione ricerca-manipolazione. In 12 prove di task, CLEA supera il modello di riferimento, ottenendo un miglioramento del 67,3% nel tasso di successo e un aumento del 52,8% nel tasso di completamento dei task. Questi risultati dimostrano che CLEA migliora significativamente la robustezza della pianificazione e dell'esecuzione dei task in ambienti dinamici.
English
Large Language Models (LLMs) exhibit remarkable capabilities in the
hierarchical decomposition of complex tasks through semantic reasoning.
However, their application in embodied systems faces challenges in ensuring
reliable execution of subtask sequences and achieving one-shot success in
long-term task completion. To address these limitations in dynamic
environments, we propose Closed-Loop Embodied Agent (CLEA) -- a novel
architecture incorporating four specialized open-source LLMs with functional
decoupling for closed-loop task management. The framework features two core
innovations: (1) Interactive task planner that dynamically generates executable
subtasks based on the environmental memory, and (2) Multimodal execution critic
employing an evaluation framework to conduct a probabilistic assessment of
action feasibility, triggering hierarchical re-planning mechanisms when
environmental perturbations exceed preset thresholds. To validate CLEA's
effectiveness, we conduct experiments in a real environment with manipulable
objects, using two heterogeneous robots for object search, manipulation, and
search-manipulation integration tasks. Across 12 task trials, CLEA outperforms
the baseline model, achieving a 67.3% improvement in success rate and a 52.8%
increase in task completion rate. These results demonstrate that CLEA
significantly enhances the robustness of task planning and execution in dynamic
environments.Summary
AI-Generated Summary