Código como Monitor: Programación Visual Consciente de Restricciones para la Detección de Fallos Robóticos Reactiva y Proactiva
Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection
December 5, 2024
Autores: Enshen Zhou, Qi Su, Cheng Chi, Zhizheng Zhang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, He Wang
cs.AI
Resumen
La detección automática y prevención de fallos de tipo abierto son cruciales en sistemas robóticos de lazo cerrado. Estudios recientes a menudo tienen dificultades para identificar simultáneamente de manera reactiva los fallos inesperados después de que ocurren y prevenir proactivamente los previsibles. Con este fin, proponemos Código como Monitor (CaM), un paradigma novedoso que aprovecha el modelo visión-lenguaje (VLM) para la detección de fallos reactiva y proactiva de tipo abierto. El núcleo de nuestro método es formular ambas tareas como un conjunto unificado de problemas de satisfacción de restricciones espacio-temporales y utilizar código generado por VLM para evaluarlos en tiempo real para monitoreo. Para mejorar la precisión y eficiencia del monitoreo, introducimos elementos de restricción que abstraen entidades relacionadas con restricciones o sus partes en elementos geométricos compactos. Este enfoque ofrece mayor generalidad, simplifica el seguimiento y facilita la programación visual consciente de restricciones al aprovechar estos elementos como indicadores visuales. Los experimentos muestran que CaM logra una tasa de éxito un 28,7% mayor y reduce el tiempo de ejecución en un 31,8% bajo perturbaciones severas en comparación con los baselines en tres simuladores y un entorno real. Además, CaM puede integrarse con políticas de control de lazo abierto para formar sistemas de lazo cerrado, lo que permite tareas de largo horizonte en escenarios con entornos dinámicos y desordenados.
English
Automatic detection and prevention of open-set failures are crucial in
closed-loop robotic systems. Recent studies often struggle to simultaneously
identify unexpected failures reactively after they occur and prevent
foreseeable ones proactively. To this end, we propose Code-as-Monitor (CaM), a
novel paradigm leveraging the vision-language model (VLM) for both open-set
reactive and proactive failure detection. The core of our method is to
formulate both tasks as a unified set of spatio-temporal constraint
satisfaction problems and use VLM-generated code to evaluate them for real-time
monitoring. To enhance the accuracy and efficiency of monitoring, we further
introduce constraint elements that abstract constraint-related entities or
their parts into compact geometric elements. This approach offers greater
generality, simplifies tracking, and facilitates constraint-aware visual
programming by leveraging these elements as visual prompts. Experiments show
that CaM achieves a 28.7% higher success rate and reduces execution time by
31.8% under severe disturbances compared to baselines across three simulators
and a real-world setting. Moreover, CaM can be integrated with open-loop
control policies to form closed-loop systems, enabling long-horizon tasks in
cluttered scenes with dynamic environments.Summary
AI-Generated Summary