ChatPaper.aiChatPaper

CLEA : Agent Embodiqué en Boucle Fermée pour l'Amélioration de l'Exécution des Tâches dans des Environnements Dynamiques

CLEA: Closed-Loop Embodied Agent for Enhancing Task Execution in Dynamic Environments

March 2, 2025
Auteurs: Mingcong Lei, Ge Wang, Yiming Zhao, Zhixin Mai, Qing Zhao, Yao Guo, Zhen Li, Shuguang Cui, Yatong Han, Jinke Ren
cs.AI

Résumé

Les modèles de langage à grande échelle (LLMs) démontrent des capacités remarquables dans la décomposition hiérarchique de tâches complexes grâce au raisonnement sémantique. Cependant, leur application dans les systèmes incarnés rencontre des difficultés pour garantir l'exécution fiable de séquences de sous-tâches et atteindre une réussite en une seule tentative dans l'accomplissement de tâches à long terme. Pour surmonter ces limitations dans des environnements dynamiques, nous proposons l'Agent Incarné en Boucle Fermée (CLEA) -- une architecture novatrice intégrant quatre LLMs open-source spécialisés avec un découplage fonctionnel pour la gestion de tâches en boucle fermée. Le cadre présente deux innovations principales : (1) Un planificateur de tâches interactif qui génère dynamiquement des sous-tâches exécutables basées sur la mémoire environnementale, et (2) Un critique d'exécution multimodal utilisant un cadre d'évaluation pour effectuer une évaluation probabiliste de la faisabilité des actions, déclenchant des mécanismes de re-planification hiérarchique lorsque les perturbations environnementales dépassent des seuils prédéfinis. Pour valider l'efficacité de CLEA, nous menons des expériences dans un environnement réel avec des objets manipulables, en utilisant deux robots hétérogènes pour des tâches de recherche d'objets, de manipulation et d'intégration recherche-manipulation. Sur 12 essais de tâches, CLEA surpasse le modèle de référence, obtenant une amélioration de 67,3% du taux de réussite et une augmentation de 52,8% du taux d'accomplissement des tâches. Ces résultats démontrent que CLEA améliore significativement la robustesse de la planification et de l'exécution des tâches dans des environnements dynamiques.
English
Large Language Models (LLMs) exhibit remarkable capabilities in the hierarchical decomposition of complex tasks through semantic reasoning. However, their application in embodied systems faces challenges in ensuring reliable execution of subtask sequences and achieving one-shot success in long-term task completion. To address these limitations in dynamic environments, we propose Closed-Loop Embodied Agent (CLEA) -- a novel architecture incorporating four specialized open-source LLMs with functional decoupling for closed-loop task management. The framework features two core innovations: (1) Interactive task planner that dynamically generates executable subtasks based on the environmental memory, and (2) Multimodal execution critic employing an evaluation framework to conduct a probabilistic assessment of action feasibility, triggering hierarchical re-planning mechanisms when environmental perturbations exceed preset thresholds. To validate CLEA's effectiveness, we conduct experiments in a real environment with manipulable objects, using two heterogeneous robots for object search, manipulation, and search-manipulation integration tasks. Across 12 task trials, CLEA outperforms the baseline model, achieving a 67.3% improvement in success rate and a 52.8% increase in task completion rate. These results demonstrate that CLEA significantly enhances the robustness of task planning and execution in dynamic environments.

Summary

AI-Generated Summary

PDF32March 4, 2025