Code-as-Monitor : Programmation visuelle consciente des contraintes pour la détection des défaillances robotiques réactives et proactives.

papers.abstract

La détection automatique et la prévention des défaillances en mode ouvert sont cruciales dans les systèmes robotiques en boucle fermée. Les études récentes ont souvent du mal à identifier simultanément de manière réactive les défaillances inattendues après leur survenue et à prévenir de manière proactive celles prévisibles. À cette fin, nous proposons Code-as-Monitor (CaM), un nouveau paradigme exploitant le modèle vision-langage (VLM) pour la détection de défaillances réactives et proactives en mode ouvert. Le cœur de notre méthode consiste à formuler ces deux tâches comme un ensemble unifié de problèmes de satisfaction de contraintes spatio-temporelles et à utiliser du code généré par le VLM pour les évaluer en temps réel. Pour améliorer la précision et l'efficacité de la surveillance, nous introduisons en outre des éléments de contrainte qui abstraient les entités liées aux contraintes ou leurs parties en éléments géométriques compacts. Cette approche offre une plus grande généralité, simplifie le suivi et facilite la programmation visuelle consciente des contraintes en utilisant ces éléments comme indicateurs visuels. Les expériences montrent que CaM atteint un taux de réussite supérieur de 28,7 % et réduit le temps d'exécution de 31,8 % en cas de perturbations sévères par rapport aux références à travers trois simulateurs et un environnement réel. De plus, CaM peut être intégré à des politiques de contrôle en boucle ouverte pour former des systèmes en boucle fermée, permettant des tâches à longue portée dans des scènes encombrées avec des environnements dynamiques.

English

Automatic detection and prevention of open-set failures are crucial in closed-loop robotic systems. Recent studies often struggle to simultaneously identify unexpected failures reactively after they occur and prevent foreseeable ones proactively. To this end, we propose Code-as-Monitor (CaM), a novel paradigm leveraging the vision-language model (VLM) for both open-set reactive and proactive failure detection. The core of our method is to formulate both tasks as a unified set of spatio-temporal constraint satisfaction problems and use VLM-generated code to evaluate them for real-time monitoring. To enhance the accuracy and efficiency of monitoring, we further introduce constraint elements that abstract constraint-related entities or their parts into compact geometric elements. This approach offers greater generality, simplifies tracking, and facilitates constraint-aware visual programming by leveraging these elements as visual prompts. Experiments show that CaM achieves a 28.7% higher success rate and reduces execution time by 31.8% under severe disturbances compared to baselines across three simulators and a real-world setting. Moreover, CaM can be integrated with open-loop control policies to form closed-loop systems, enabling long-horizon tasks in cluttered scenes with dynamic environments.

Code-as-Monitor : Programmation visuelle consciente des contraintes pour la détection des défaillances robotiques réactives et proactives.

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

papers.abstract

Support