CLEA: Agente Corporizado de Bucle Cerrado para Mejorar la Ejecución de Tareas en Entornos Dinámicos
CLEA: Closed-Loop Embodied Agent for Enhancing Task Execution in Dynamic Environments
March 2, 2025
Autores: Mingcong Lei, Ge Wang, Yiming Zhao, Zhixin Mai, Qing Zhao, Yao Guo, Zhen Li, Shuguang Cui, Yatong Han, Jinke Ren
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) exhiben capacidades notables en la descomposición jerárquica de tareas complejas mediante razonamiento semántico. Sin embargo, su aplicación en sistemas corporizados enfrenta desafíos para garantizar la ejecución confiable de secuencias de subtareas y lograr el éxito en un solo intento en la finalización de tareas a largo plazo. Para abordar estas limitaciones en entornos dinámicos, proponemos el Agente Corporizado de Bucle Cerrado (CLEA, por sus siglas en inglés) —una arquitectura novedosa que incorpora cuatro LLMs de código abierto especializados con desacoplamiento funcional para la gestión de tareas en bucle cerrado. El marco presenta dos innovaciones principales: (1) Un planificador de tareas interactivo que genera dinámicamente subtareas ejecutables basadas en la memoria ambiental, y (2) Un crítico de ejecución multimodal que emplea un marco de evaluación para realizar una valoración probabilística de la viabilidad de las acciones, activando mecanismos de re-planificación jerárquica cuando las perturbaciones ambientales superan umbrales preestablecidos. Para validar la efectividad de CLEA, realizamos experimentos en un entorno real con objetos manipulables, utilizando dos robots heterogéneos para tareas de búsqueda, manipulación e integración de búsqueda-manipulación. En 12 pruebas de tareas, CLEA supera al modelo de referencia, logrando una mejora del 67.3% en la tasa de éxito y un aumento del 52.8% en la tasa de finalización de tareas. Estos resultados demuestran que CLEA mejora significativamente la robustez de la planificación y ejecución de tareas en entornos dinámicos.
English
Large Language Models (LLMs) exhibit remarkable capabilities in the
hierarchical decomposition of complex tasks through semantic reasoning.
However, their application in embodied systems faces challenges in ensuring
reliable execution of subtask sequences and achieving one-shot success in
long-term task completion. To address these limitations in dynamic
environments, we propose Closed-Loop Embodied Agent (CLEA) -- a novel
architecture incorporating four specialized open-source LLMs with functional
decoupling for closed-loop task management. The framework features two core
innovations: (1) Interactive task planner that dynamically generates executable
subtasks based on the environmental memory, and (2) Multimodal execution critic
employing an evaluation framework to conduct a probabilistic assessment of
action feasibility, triggering hierarchical re-planning mechanisms when
environmental perturbations exceed preset thresholds. To validate CLEA's
effectiveness, we conduct experiments in a real environment with manipulable
objects, using two heterogeneous robots for object search, manipulation, and
search-manipulation integration tasks. Across 12 task trials, CLEA outperforms
the baseline model, achieving a 67.3% improvement in success rate and a 52.8%
increase in task completion rate. These results demonstrate that CLEA
significantly enhances the robustness of task planning and execution in dynamic
environments.Summary
AI-Generated Summary