Code-als-Monitor: Einschränkungsbewusstes visuelles Programmieren für reaktive und proaktive robotergestützte Fehlererkennung
Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection
December 5, 2024
Autoren: Enshen Zhou, Qi Su, Cheng Chi, Zhizheng Zhang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, He Wang
cs.AI
Zusammenfassung
Die automatische Erkennung und Verhinderung von Open-Set-Fehlern sind entscheidend in geschlossenen Regelkreis-Robotersystemen. Aktuelle Studien haben oft Schwierigkeiten, unerwartete Fehler reaktiv nach ihrem Auftreten zu identifizieren und vorhersehbare Fehler proaktiv zu verhindern. Zu diesem Zweck schlagen wir Code-als-Monitor (CaM) vor, ein neuartiges Paradigma, das das Vision-Sprach-Modell (VLM) zur gleichzeitigen offenen reaktiven und proaktiven Fehlererkennung nutzt. Der Kern unserer Methode besteht darin, beide Aufgaben als einheitliches Set von räumlich-zeitlichen Constraint Satisfaction Problems zu formulieren und VLM-generierten Code zur Echtzeitüberwachung zu verwenden. Zur Verbesserung der Genauigkeit und Effizienz der Überwachung führen wir weiterhin Constraint-Elemente ein, die Constraint-bezogene Entitäten oder deren Teile in kompakte geometrische Elemente abstrahieren. Dieser Ansatz bietet eine größere Allgemeingültigkeit, vereinfacht das Tracking und erleichtert die Constraint-bewusste visuelle Programmierung, indem diese Elemente als visuelle Hinweise genutzt werden. Experimente zeigen, dass CaM eine um 28,7% höhere Erfolgsrate erzielt und die Ausführungszeit um 31,8% unter starken Störungen im Vergleich zu Baselines in drei Simulatoren und einer realen Umgebung reduziert. Darüber hinaus kann CaM mit Open-Loop-Regelungsrichtlinien integriert werden, um geschlossene Regelkreissysteme zu bilden, die Langzeitaufgaben in überfüllten Szenen mit dynamischen Umgebungen ermöglichen.
English
Automatic detection and prevention of open-set failures are crucial in
closed-loop robotic systems. Recent studies often struggle to simultaneously
identify unexpected failures reactively after they occur and prevent
foreseeable ones proactively. To this end, we propose Code-as-Monitor (CaM), a
novel paradigm leveraging the vision-language model (VLM) for both open-set
reactive and proactive failure detection. The core of our method is to
formulate both tasks as a unified set of spatio-temporal constraint
satisfaction problems and use VLM-generated code to evaluate them for real-time
monitoring. To enhance the accuracy and efficiency of monitoring, we further
introduce constraint elements that abstract constraint-related entities or
their parts into compact geometric elements. This approach offers greater
generality, simplifies tracking, and facilitates constraint-aware visual
programming by leveraging these elements as visual prompts. Experiments show
that CaM achieves a 28.7% higher success rate and reduces execution time by
31.8% under severe disturbances compared to baselines across three simulators
and a real-world setting. Moreover, CaM can be integrated with open-loop
control policies to form closed-loop systems, enabling long-horizon tasks in
cluttered scenes with dynamic environments.Summary
AI-Generated Summary