ChatPaper.aiChatPaper

HyCodePolicy: Hybride Sprachcontroller für multimodale Überwachung und Entscheidungsfindung in verkörperten Agenten

HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents

August 4, 2025
papers.authors: Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu
cs.AI

papers.abstract

Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben eine reichere perzeptive Verankerung für die Generierung von Codepolicies in verkörperten Agenten ermöglicht. Die meisten bestehenden Systeme verfügen jedoch nicht über effektive Mechanismen, um die Policy-Ausführung adaptiv zu überwachen und Codes während der Aufgabenbearbeitung zu reparieren. In dieser Arbeit stellen wir HyCodePolicy vor, ein hybrides sprachbasiertes Steuerungsframework, das Code-Synthese, geometrische Verankerung, perzeptive Überwachung und iterative Reparatur systematisch in einen geschlossenen Programmierzyklus für verkörperte Agenten integriert. Technisch gesehen zerlegt unser System bei einer natürlichen Sprachanweisung diese zunächst in Teilziele und generiert ein initiales ausführbares Programm, das in objektzentrierten geometrischen Primitiven verankert ist. Das Programm wird dann in einer Simulation ausgeführt, während ein Vision-Language-Modell (VLM) ausgewählte Kontrollpunkte beobachtet, um Ausführungsfehler zu erkennen und zu lokalisieren sowie Fehlergründe abzuleiten. Durch die Fusion strukturierter Ausführungsspuren, die programmbezogene Ereignisse erfassen, mit VLM-basiertem perzeptivem Feedback, leitet HyCodePolicy Fehlerursachen ab und repariert Programme. Dieser hybride duale Feedback-Mechanismus ermöglicht eine selbstkorrigierende Programmsynthese mit minimaler menschlicher Aufsicht. Unsere Ergebnisse zeigen, dass HyCodePolicy die Robustheit und Stichprobeneffizienz von Roboter-Manipulationspolicies signifikant verbessert und eine skalierbare Strategie für die Integration multimodaler Argumentation in autonome Entscheidungsprozesse bietet.
English
Recent advances in multimodal large language models (MLLMs) have enabled richer perceptual grounding for code policy generation in embodied agents. However, most existing systems lack effective mechanisms to adaptively monitor policy execution and repair codes during task completion. In this work, we introduce HyCodePolicy, a hybrid language-based control framework that systematically integrates code synthesis, geometric grounding, perceptual monitoring, and iterative repair into a closed-loop programming cycle for embodied agents. Technically, given a natural language instruction, our system first decomposes it into subgoals and generates an initial executable program grounded in object-centric geometric primitives. The program is then executed in simulation, while a vision-language model (VLM) observes selected checkpoints to detect and localize execution failures and infer failure reasons. By fusing structured execution traces capturing program-level events with VLM-based perceptual feedback, HyCodePolicy infers failure causes and repairs programs. This hybrid dual feedback mechanism enables self-correcting program synthesis with minimal human supervision. Our results demonstrate that HyCodePolicy significantly improves the robustness and sample efficiency of robot manipulation policies, offering a scalable strategy for integrating multimodal reasoning into autonomous decision-making pipelines.
PDF52August 6, 2025