HyCodePolicy: Hybride Taalcontrollers voor Multimodale Monitoring en Besluitvorming in Belichaamde Agents
HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents
August 4, 2025
Auteurs: Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu
cs.AI
Samenvatting
Recente ontwikkelingen in multimodale grote taalmodellen (MLLMs) hebben rijkere perceptuele verankering mogelijk gemaakt voor het genereren van codebeleid in belichaamde agents. De meeste bestaande systemen ontberen echter effectieve mechanismen om adaptief de uitvoering van beleid te monitoren en codes te repareren tijdens het voltooien van taken. In dit werk introduceren we HyCodePolicy, een hybride taalgebaseerd controlekader dat codesynthese, geometrische verankering, perceptuele monitoring en iteratieve reparatie systematisch integreert in een gesloten programmeercyclus voor belichaamde agents. Technisch gezien deelt ons systeem, gegeven een instructie in natuurlijke taal, deze eerst op in subdoelen en genereert een initieel uitvoerbaar programma dat verankerd is in objectgerichte geometrische primitieven. Het programma wordt vervolgens uitgevoerd in een simulatie, terwijl een vision-language model (VLM) geselecteerde controlepunten observeert om uitvoeringsfouten te detecteren en lokaliseren, en om foutredenen af te leiden. Door gestructureerde uitvoeringstraces die programmaniveau-gebeurtenissen vastleggen te combineren met VLM-gebaseerde perceptuele feedback, leidt HyCodePolicy foutoorzaken af en repareert programma's. Dit hybride dubbele feedbackmechanisme maakt zelfcorrigerende programsynthese mogelijk met minimale menselijke supervisie. Onze resultaten tonen aan dat HyCodePolicy de robuustheid en steekproefefficiëntie van robotmanipulatiebeleid aanzienlijk verbetert, en biedt een schaalbare strategie voor het integreren van multimodale redenering in autonome besluitvormingspijplijnen.
English
Recent advances in multimodal large language models (MLLMs) have enabled
richer perceptual grounding for code policy generation in embodied agents.
However, most existing systems lack effective mechanisms to adaptively monitor
policy execution and repair codes during task completion. In this work, we
introduce HyCodePolicy, a hybrid language-based control framework that
systematically integrates code synthesis, geometric grounding, perceptual
monitoring, and iterative repair into a closed-loop programming cycle for
embodied agents. Technically, given a natural language instruction, our system
first decomposes it into subgoals and generates an initial executable program
grounded in object-centric geometric primitives. The program is then executed
in simulation, while a vision-language model (VLM) observes selected
checkpoints to detect and localize execution failures and infer failure
reasons. By fusing structured execution traces capturing program-level events
with VLM-based perceptual feedback, HyCodePolicy infers failure causes and
repairs programs. This hybrid dual feedback mechanism enables self-correcting
program synthesis with minimal human supervision. Our results demonstrate that
HyCodePolicy significantly improves the robustness and sample efficiency of
robot manipulation policies, offering a scalable strategy for integrating
multimodal reasoning into autonomous decision-making pipelines.