HyCodePolicy: Controllori Linguistici Ibridi per il Monitoraggio Multimodale e la Decisione negli Agenti Embodied
HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents
August 4, 2025
Autori: Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu
cs.AI
Abstract
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno consentito un ancoraggio percettivo più ricco per la generazione di politiche di codice negli agenti incarnati. Tuttavia, la maggior parte dei sistemi esistenti manca di meccanismi efficaci per monitorare in modo adattivo l'esecuzione delle politiche e riparare i codici durante il completamento dei compiti. In questo lavoro, introduciamo HyCodePolicy, un framework di controllo ibrido basato sul linguaggio che integra sistematicamente la sintesi del codice, l'ancoraggio geometrico, il monitoraggio percettivo e la riparazione iterativa in un ciclo di programmazione a circuito chiuso per agenti incarnati. Tecnicamente, data un'istruzione in linguaggio naturale, il nostro sistema la scompone prima in sottobiettivi e genera un programma eseguibile iniziale ancorato a primitive geometriche centrate sugli oggetti. Il programma viene quindi eseguito in simulazione, mentre un modello visione-linguaggio (VLM) osserva checkpoint selezionati per rilevare e localizzare fallimenti di esecuzione e inferire le ragioni dei fallimenti. Fondendo tracce di esecuzione strutturate che catturano eventi a livello di programma con feedback percettivi basati su VLM, HyCodePolicy inferisce le cause dei fallimenti e ripara i programmi. Questo meccanismo di feedback duale ibrido consente la sintesi di programmi auto-correttivi con una supervisione umana minima. I nostri risultati dimostrano che HyCodePolicy migliora significativamente la robustezza e l'efficienza campionaria delle politiche di manipolazione robotica, offrendo una strategia scalabile per integrare il ragionamento multimodale nelle pipeline di decision-making autonomo.
English
Recent advances in multimodal large language models (MLLMs) have enabled
richer perceptual grounding for code policy generation in embodied agents.
However, most existing systems lack effective mechanisms to adaptively monitor
policy execution and repair codes during task completion. In this work, we
introduce HyCodePolicy, a hybrid language-based control framework that
systematically integrates code synthesis, geometric grounding, perceptual
monitoring, and iterative repair into a closed-loop programming cycle for
embodied agents. Technically, given a natural language instruction, our system
first decomposes it into subgoals and generates an initial executable program
grounded in object-centric geometric primitives. The program is then executed
in simulation, while a vision-language model (VLM) observes selected
checkpoints to detect and localize execution failures and infer failure
reasons. By fusing structured execution traces capturing program-level events
with VLM-based perceptual feedback, HyCodePolicy infers failure causes and
repairs programs. This hybrid dual feedback mechanism enables self-correcting
program synthesis with minimal human supervision. Our results demonstrate that
HyCodePolicy significantly improves the robustness and sample efficiency of
robot manipulation policies, offering a scalable strategy for integrating
multimodal reasoning into autonomous decision-making pipelines.