HyCodePolicy: Controladores Híbridos de Linguagem para Monitoramento Multimodal e Tomada de Decisão em Agentes Corporificados
HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents
August 4, 2025
Autores: Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu
cs.AI
Resumo
Avanços recentes em modelos de linguagem multimodal de grande escala (MLLMs) têm possibilitado um embasamento perceptivo mais rico para a geração de políticas de código em agentes corporificados. No entanto, a maioria dos sistemas existentes carece de mecanismos eficazes para monitorar adaptativamente a execução de políticas e reparar códigos durante a conclusão de tarefas. Neste trabalho, apresentamos o HyCodePolicy, uma estrutura de controle híbrida baseada em linguagem que integra sistematicamente a síntese de código, o embasamento geométrico, o monitoramento perceptivo e o reparo iterativo em um ciclo de programação em malha fechada para agentes corporificados. Tecnicamente, dada uma instrução em linguagem natural, nosso sistema primeiro a decompõe em subobjetivos e gera um programa executável inicial embasado em primitivas geométricas centradas em objetos. O programa é então executado em simulação, enquanto um modelo de visão e linguagem (VLM) observa pontos de verificação selecionados para detectar e localizar falhas de execução e inferir suas causas. Ao fundir traços de execução estruturados que capturam eventos em nível de programa com feedback perceptivo baseado em VLM, o HyCodePolicy infere as causas das falhas e repara os programas. Esse mecanismo híbrido de duplo feedback permite a síntese de programas autocorretivos com supervisão humana mínima. Nossos resultados demonstram que o HyCodePolicy melhora significativamente a robustez e a eficiência amostral das políticas de manipulação robótica, oferecendo uma estratégia escalável para integrar o raciocínio multimodal em pipelines de tomada de decisão autônoma.
English
Recent advances in multimodal large language models (MLLMs) have enabled
richer perceptual grounding for code policy generation in embodied agents.
However, most existing systems lack effective mechanisms to adaptively monitor
policy execution and repair codes during task completion. In this work, we
introduce HyCodePolicy, a hybrid language-based control framework that
systematically integrates code synthesis, geometric grounding, perceptual
monitoring, and iterative repair into a closed-loop programming cycle for
embodied agents. Technically, given a natural language instruction, our system
first decomposes it into subgoals and generates an initial executable program
grounded in object-centric geometric primitives. The program is then executed
in simulation, while a vision-language model (VLM) observes selected
checkpoints to detect and localize execution failures and infer failure
reasons. By fusing structured execution traces capturing program-level events
with VLM-based perceptual feedback, HyCodePolicy infers failure causes and
repairs programs. This hybrid dual feedback mechanism enables self-correcting
program synthesis with minimal human supervision. Our results demonstrate that
HyCodePolicy significantly improves the robustness and sample efficiency of
robot manipulation policies, offering a scalable strategy for integrating
multimodal reasoning into autonomous decision-making pipelines.