CLEA: Agente Corporificado em Circuito Fechado para Melhoria da Execução de Tarefas em Ambientes Dinâmicos
CLEA: Closed-Loop Embodied Agent for Enhancing Task Execution in Dynamic Environments
March 2, 2025
Autores: Mingcong Lei, Ge Wang, Yiming Zhao, Zhixin Mai, Qing Zhao, Yao Guo, Zhen Li, Shuguang Cui, Yatong Han, Jinke Ren
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) exibem capacidades notáveis na decomposição hierárquica de tarefas complexas por meio de raciocínio semântico. No entanto, sua aplicação em sistemas corporificados enfrenta desafios para garantir a execução confiável de sequências de subtarefas e alcançar sucesso imediato na conclusão de tarefas de longo prazo. Para abordar essas limitações em ambientes dinâmicos, propomos o Agente Corporificado em Circuito Fechado (CLEA) — uma arquitetura inovadora que incorpora quatro LLMs especializados de código aberto com desacoplamento funcional para o gerenciamento de tarefas em circuito fechado. O framework apresenta duas inovações principais: (1) Planejador de tarefas interativo que gera dinamicamente subtarefas executáveis com base na memória ambiental, e (2) Crítico de execução multimodal que emprega um framework de avaliação para realizar uma análise probabilística da viabilidade de ações, acionando mecanismos hierárquicos de replanejamento quando perturbações ambientais excedem limites pré-definidos. Para validar a eficácia do CLEA, conduzimos experimentos em um ambiente real com objetos manipuláveis, utilizando dois robôs heterogêneos para tarefas de busca, manipulação e integração busca-manipulação. Em 12 tentativas de tarefas, o CLEA superou o modelo de referência, alcançando uma melhoria de 67,3% na taxa de sucesso e um aumento de 52,8% na taxa de conclusão de tarefas. Esses resultados demonstram que o CLEA aprimora significativamente a robustez do planejamento e execução de tarefas em ambientes dinâmicos.
English
Large Language Models (LLMs) exhibit remarkable capabilities in the
hierarchical decomposition of complex tasks through semantic reasoning.
However, their application in embodied systems faces challenges in ensuring
reliable execution of subtask sequences and achieving one-shot success in
long-term task completion. To address these limitations in dynamic
environments, we propose Closed-Loop Embodied Agent (CLEA) -- a novel
architecture incorporating four specialized open-source LLMs with functional
decoupling for closed-loop task management. The framework features two core
innovations: (1) Interactive task planner that dynamically generates executable
subtasks based on the environmental memory, and (2) Multimodal execution critic
employing an evaluation framework to conduct a probabilistic assessment of
action feasibility, triggering hierarchical re-planning mechanisms when
environmental perturbations exceed preset thresholds. To validate CLEA's
effectiveness, we conduct experiments in a real environment with manipulable
objects, using two heterogeneous robots for object search, manipulation, and
search-manipulation integration tasks. Across 12 task trials, CLEA outperforms
the baseline model, achieving a 67.3% improvement in success rate and a 52.8%
increase in task completion rate. These results demonstrate that CLEA
significantly enhances the robustness of task planning and execution in dynamic
environments.Summary
AI-Generated Summary