HyCodePolicy: Гибридные языковые контроллеры для мультимодального мониторинга и принятия решений в воплощенных агентах

Аннотация

Последние достижения в области мультимодальных больших языковых моделей (MLLMs) позволили обеспечить более богатое перцептивное обоснование для генерации политик кода в воплощенных агентах. Однако большинство существующих систем не имеют эффективных механизмов для адаптивного мониторинга выполнения политик и исправления кодов в процессе выполнения задач. В данной работе мы представляем HyCodePolicy, гибридную языковую систему управления, которая систематически интегрирует синтез кода, геометрическое обоснование, перцептивный мониторинг и итеративное исправление в замкнутый цикл программирования для воплощенных агентов. Технически, получив инструкцию на естественном языке, наша система сначала разбивает её на подцели и генерирует начальную исполняемую программу, основанную на объектно-ориентированных геометрических примитивах. Затем программа выполняется в симуляции, в то время как модель обработки изображений и текста (VLM) наблюдает за выбранными контрольными точками для обнаружения и локализации сбоев выполнения, а также для выяснения причин сбоев. Объединяя структурированные трассировки выполнения, фиксирующие события на уровне программы, с перцептивной обратной связью на основе VLM, HyCodePolicy определяет причины сбоев и исправляет программы. Этот гибридный механизм двойной обратной связи позволяет осуществлять самокорректирующийся синтез программ с минимальным участием человека. Наши результаты демонстрируют, что HyCodePolicy значительно повышает устойчивость и эффективность использования данных в политиках манипуляции роботов, предлагая масштабируемую стратегию для интеграции мультимодального рассуждения в контуры автономного принятия решений.

English

Recent advances in multimodal large language models (MLLMs) have enabled richer perceptual grounding for code policy generation in embodied agents. However, most existing systems lack effective mechanisms to adaptively monitor policy execution and repair codes during task completion. In this work, we introduce HyCodePolicy, a hybrid language-based control framework that systematically integrates code synthesis, geometric grounding, perceptual monitoring, and iterative repair into a closed-loop programming cycle for embodied agents. Technically, given a natural language instruction, our system first decomposes it into subgoals and generates an initial executable program grounded in object-centric geometric primitives. The program is then executed in simulation, while a vision-language model (VLM) observes selected checkpoints to detect and localize execution failures and infer failure reasons. By fusing structured execution traces capturing program-level events with VLM-based perceptual feedback, HyCodePolicy infers failure causes and repairs programs. This hybrid dual feedback mechanism enables self-correcting program synthesis with minimal human supervision. Our results demonstrate that HyCodePolicy significantly improves the robustness and sample efficiency of robot manipulation policies, offering a scalable strategy for integrating multimodal reasoning into autonomous decision-making pipelines.

HyCodePolicy: Гибридные языковые контроллеры для мультимодального мониторинга и принятия решений в воплощенных агентах

HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents

Аннотация

Support