ChatPaper.aiChatPaper

Código como Monitor: Programación Visual Consciente de Restricciones para la Detección de Fallos Robóticos Reactiva y Proactiva

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

December 5, 2024
Autores: Enshen Zhou, Qi Su, Cheng Chi, Zhizheng Zhang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, He Wang
cs.AI

Resumen

La detección automática y prevención de fallos de tipo abierto son cruciales en sistemas robóticos de lazo cerrado. Estudios recientes a menudo tienen dificultades para identificar simultáneamente de manera reactiva los fallos inesperados después de que ocurren y prevenir proactivamente los previsibles. Con este fin, proponemos Código como Monitor (CaM), un paradigma novedoso que aprovecha el modelo visión-lenguaje (VLM) para la detección de fallos reactiva y proactiva de tipo abierto. El núcleo de nuestro método es formular ambas tareas como un conjunto unificado de problemas de satisfacción de restricciones espacio-temporales y utilizar código generado por VLM para evaluarlos en tiempo real para monitoreo. Para mejorar la precisión y eficiencia del monitoreo, introducimos elementos de restricción que abstraen entidades relacionadas con restricciones o sus partes en elementos geométricos compactos. Este enfoque ofrece mayor generalidad, simplifica el seguimiento y facilita la programación visual consciente de restricciones al aprovechar estos elementos como indicadores visuales. Los experimentos muestran que CaM logra una tasa de éxito un 28,7% mayor y reduce el tiempo de ejecución en un 31,8% bajo perturbaciones severas en comparación con los baselines en tres simuladores y un entorno real. Además, CaM puede integrarse con políticas de control de lazo abierto para formar sistemas de lazo cerrado, lo que permite tareas de largo horizonte en escenarios con entornos dinámicos y desordenados.
English
Automatic detection and prevention of open-set failures are crucial in closed-loop robotic systems. Recent studies often struggle to simultaneously identify unexpected failures reactively after they occur and prevent foreseeable ones proactively. To this end, we propose Code-as-Monitor (CaM), a novel paradigm leveraging the vision-language model (VLM) for both open-set reactive and proactive failure detection. The core of our method is to formulate both tasks as a unified set of spatio-temporal constraint satisfaction problems and use VLM-generated code to evaluate them for real-time monitoring. To enhance the accuracy and efficiency of monitoring, we further introduce constraint elements that abstract constraint-related entities or their parts into compact geometric elements. This approach offers greater generality, simplifies tracking, and facilitates constraint-aware visual programming by leveraging these elements as visual prompts. Experiments show that CaM achieves a 28.7% higher success rate and reduces execution time by 31.8% under severe disturbances compared to baselines across three simulators and a real-world setting. Moreover, CaM can be integrated with open-loop control policies to form closed-loop systems, enabling long-horizon tasks in cluttered scenes with dynamic environments.

Summary

AI-Generated Summary

PDF393December 6, 2024