HyCodePolicy: Controladores de Lenguaje Híbridos para Monitoreo Multimodal y Toma de Decisiones en Agentes Embebidos
HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents
August 4, 2025
Autores: Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu
cs.AI
Resumen
Los avances recientes en los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han permitido una base perceptiva más rica para la generación de políticas de código en agentes corporizados. Sin embargo, la mayoría de los sistemas existentes carecen de mecanismos efectivos para monitorear de manera adaptativa la ejecución de políticas y reparar códigos durante la realización de tareas. En este trabajo, presentamos HyCodePolicy, un marco de control basado en lenguaje híbrido que integra sistemáticamente la síntesis de código, la base geométrica, el monitoreo perceptivo y la reparación iterativa en un ciclo de programación en bucle cerrado para agentes corporizados. Técnicamente, dada una instrucción en lenguaje natural, nuestro sistema primero la descompone en subobjetivos y genera un programa ejecutable inicial basado en primitivas geométricas centradas en objetos. Luego, el programa se ejecuta en simulación, mientras un modelo de visión-lenguaje (VLM, por sus siglas en inglés) observa puntos de control seleccionados para detectar y localizar fallos de ejecución e inferir sus causas. Al fusionar trazas de ejecución estructuradas que capturan eventos a nivel de programa con retroalimentación perceptiva basada en VLM, HyCodePolicy infiere las causas de los fallos y repara los programas. Este mecanismo híbrido de doble retroalimentación permite la síntesis de programas autocorrectivos con una supervisión humana mínima. Nuestros resultados demuestran que HyCodePolicy mejora significativamente la robustez y la eficiencia de muestreo de las políticas de manipulación robótica, ofreciendo una estrategia escalable para integrar el razonamiento multimodal en los procesos de toma de decisiones autónomas.
English
Recent advances in multimodal large language models (MLLMs) have enabled
richer perceptual grounding for code policy generation in embodied agents.
However, most existing systems lack effective mechanisms to adaptively monitor
policy execution and repair codes during task completion. In this work, we
introduce HyCodePolicy, a hybrid language-based control framework that
systematically integrates code synthesis, geometric grounding, perceptual
monitoring, and iterative repair into a closed-loop programming cycle for
embodied agents. Technically, given a natural language instruction, our system
first decomposes it into subgoals and generates an initial executable program
grounded in object-centric geometric primitives. The program is then executed
in simulation, while a vision-language model (VLM) observes selected
checkpoints to detect and localize execution failures and infer failure
reasons. By fusing structured execution traces capturing program-level events
with VLM-based perceptual feedback, HyCodePolicy infers failure causes and
repairs programs. This hybrid dual feedback mechanism enables self-correcting
program synthesis with minimal human supervision. Our results demonstrate that
HyCodePolicy significantly improves the robustness and sample efficiency of
robot manipulation policies, offering a scalable strategy for integrating
multimodal reasoning into autonomous decision-making pipelines.