HyCodePolicy: Гибридные языковые контроллеры для мультимодального мониторинга и принятия решений в воплощенных агентах
HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents
August 4, 2025
Авторы: Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu
cs.AI
Аннотация
Последние достижения в области мультимодальных больших языковых моделей (MLLMs) позволили обеспечить более богатое перцептивное обоснование для генерации политик кода в воплощенных агентах. Однако большинство существующих систем не имеют эффективных механизмов для адаптивного мониторинга выполнения политик и исправления кодов в процессе выполнения задач. В данной работе мы представляем HyCodePolicy, гибридную языковую систему управления, которая систематически интегрирует синтез кода, геометрическое обоснование, перцептивный мониторинг и итеративное исправление в замкнутый цикл программирования для воплощенных агентов. Технически, получив инструкцию на естественном языке, наша система сначала разбивает её на подцели и генерирует начальную исполняемую программу, основанную на объектно-ориентированных геометрических примитивах. Затем программа выполняется в симуляции, в то время как модель обработки изображений и текста (VLM) наблюдает за выбранными контрольными точками для обнаружения и локализации сбоев выполнения, а также для выяснения причин сбоев. Объединяя структурированные трассировки выполнения, фиксирующие события на уровне программы, с перцептивной обратной связью на основе VLM, HyCodePolicy определяет причины сбоев и исправляет программы. Этот гибридный механизм двойной обратной связи позволяет осуществлять самокорректирующийся синтез программ с минимальным участием человека. Наши результаты демонстрируют, что HyCodePolicy значительно повышает устойчивость и эффективность использования данных в политиках манипуляции роботов, предлагая масштабируемую стратегию для интеграции мультимодального рассуждения в контуры автономного принятия решений.
English
Recent advances in multimodal large language models (MLLMs) have enabled
richer perceptual grounding for code policy generation in embodied agents.
However, most existing systems lack effective mechanisms to adaptively monitor
policy execution and repair codes during task completion. In this work, we
introduce HyCodePolicy, a hybrid language-based control framework that
systematically integrates code synthesis, geometric grounding, perceptual
monitoring, and iterative repair into a closed-loop programming cycle for
embodied agents. Technically, given a natural language instruction, our system
first decomposes it into subgoals and generates an initial executable program
grounded in object-centric geometric primitives. The program is then executed
in simulation, while a vision-language model (VLM) observes selected
checkpoints to detect and localize execution failures and infer failure
reasons. By fusing structured execution traces capturing program-level events
with VLM-based perceptual feedback, HyCodePolicy infers failure causes and
repairs programs. This hybrid dual feedback mechanism enables self-correcting
program synthesis with minimal human supervision. Our results demonstrate that
HyCodePolicy significantly improves the robustness and sample efficiency of
robot manipulation policies, offering a scalable strategy for integrating
multimodal reasoning into autonomous decision-making pipelines.