Code-as-Monitor : Programmation visuelle consciente des contraintes pour la détection des défaillances robotiques réactives et proactives.
Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection
December 5, 2024
Auteurs: Enshen Zhou, Qi Su, Cheng Chi, Zhizheng Zhang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, He Wang
cs.AI
Résumé
La détection automatique et la prévention des défaillances en mode ouvert sont cruciales dans les systèmes robotiques en boucle fermée. Les études récentes ont souvent du mal à identifier simultanément de manière réactive les défaillances inattendues après leur survenue et à prévenir de manière proactive celles prévisibles. À cette fin, nous proposons Code-as-Monitor (CaM), un nouveau paradigme exploitant le modèle vision-langage (VLM) pour la détection de défaillances réactives et proactives en mode ouvert. Le cœur de notre méthode consiste à formuler ces deux tâches comme un ensemble unifié de problèmes de satisfaction de contraintes spatio-temporelles et à utiliser du code généré par le VLM pour les évaluer en temps réel. Pour améliorer la précision et l'efficacité de la surveillance, nous introduisons en outre des éléments de contrainte qui abstraient les entités liées aux contraintes ou leurs parties en éléments géométriques compacts. Cette approche offre une plus grande généralité, simplifie le suivi et facilite la programmation visuelle consciente des contraintes en utilisant ces éléments comme indicateurs visuels. Les expériences montrent que CaM atteint un taux de réussite supérieur de 28,7 % et réduit le temps d'exécution de 31,8 % en cas de perturbations sévères par rapport aux références à travers trois simulateurs et un environnement réel. De plus, CaM peut être intégré à des politiques de contrôle en boucle ouverte pour former des systèmes en boucle fermée, permettant des tâches à longue portée dans des scènes encombrées avec des environnements dynamiques.
English
Automatic detection and prevention of open-set failures are crucial in
closed-loop robotic systems. Recent studies often struggle to simultaneously
identify unexpected failures reactively after they occur and prevent
foreseeable ones proactively. To this end, we propose Code-as-Monitor (CaM), a
novel paradigm leveraging the vision-language model (VLM) for both open-set
reactive and proactive failure detection. The core of our method is to
formulate both tasks as a unified set of spatio-temporal constraint
satisfaction problems and use VLM-generated code to evaluate them for real-time
monitoring. To enhance the accuracy and efficiency of monitoring, we further
introduce constraint elements that abstract constraint-related entities or
their parts into compact geometric elements. This approach offers greater
generality, simplifies tracking, and facilitates constraint-aware visual
programming by leveraging these elements as visual prompts. Experiments show
that CaM achieves a 28.7% higher success rate and reduces execution time by
31.8% under severe disturbances compared to baselines across three simulators
and a real-world setting. Moreover, CaM can be integrated with open-loop
control policies to form closed-loop systems, enabling long-horizon tasks in
cluttered scenes with dynamic environments.Summary
AI-Generated Summary