HyCodePolicy : Contrôleurs de Langage Hybrides pour la Surveillance Multimodale et la Prise de Décision dans les Agents Incarnés

papers.abstract

Les récentes avancées dans les modèles de langage multimodaux de grande envergure (MLLMs) ont permis un ancrage perceptuel plus riche pour la génération de politiques de code dans les agents incarnés. Cependant, la plupart des systèmes existants manquent de mécanismes efficaces pour surveiller de manière adaptative l'exécution des politiques et réparer les codes lors de l'accomplissement des tâches. Dans ce travail, nous présentons HyCodePolicy, un cadre de contrôle hybride basé sur le langage qui intègre systématiquement la synthèse de code, l'ancrage géométrique, la surveillance perceptuelle et la réparation itérative dans un cycle de programmation en boucle fermée pour les agents incarnés. Techniquement, étant donné une instruction en langage naturel, notre système la décompose d'abord en sous-objectifs et génère un programme exécutable initial ancré dans des primitives géométriques centrées sur les objets. Le programme est ensuite exécuté en simulation, tandis qu'un modèle vision-langage (VLM) observe des points de contrôle sélectionnés pour détecter et localiser les échecs d'exécution et en déduire les raisons. En fusionnant les traces d'exécution structurées capturant les événements au niveau du programme avec les retours perceptuels basés sur le VLM, HyCodePolicy infère les causes des échecs et répare les programmes. Ce mécanisme de double rétroaction hybride permet une synthèse de programmes auto-correctrice avec une supervision humaine minimale. Nos résultats démontrent que HyCodePolicy améliore significativement la robustesse et l'efficacité d'échantillonnage des politiques de manipulation robotique, offrant une stratégie évolutive pour intégrer le raisonnement multimodal dans les pipelines de prise de décision autonome.

English

Recent advances in multimodal large language models (MLLMs) have enabled richer perceptual grounding for code policy generation in embodied agents. However, most existing systems lack effective mechanisms to adaptively monitor policy execution and repair codes during task completion. In this work, we introduce HyCodePolicy, a hybrid language-based control framework that systematically integrates code synthesis, geometric grounding, perceptual monitoring, and iterative repair into a closed-loop programming cycle for embodied agents. Technically, given a natural language instruction, our system first decomposes it into subgoals and generates an initial executable program grounded in object-centric geometric primitives. The program is then executed in simulation, while a vision-language model (VLM) observes selected checkpoints to detect and localize execution failures and infer failure reasons. By fusing structured execution traces capturing program-level events with VLM-based perceptual feedback, HyCodePolicy infers failure causes and repairs programs. This hybrid dual feedback mechanism enables self-correcting program synthesis with minimal human supervision. Our results demonstrate that HyCodePolicy significantly improves the robustness and sample efficiency of robot manipulation policies, offering a scalable strategy for integrating multimodal reasoning into autonomous decision-making pipelines.

HyCodePolicy : Contrôleurs de Langage Hybrides pour la Surveillance Multimodale et la Prise de Décision dans les Agents Incarnés

HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents

papers.abstract

Support