ChatPaper.aiChatPaper

Code-as-Monitor: Программирование на визуальном языке с учетом ограничений для реактивного и проактивного обнаружения отказов роботов

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

December 5, 2024
Авторы: Enshen Zhou, Qi Su, Cheng Chi, Zhizheng Zhang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, He Wang
cs.AI

Аннотация

Автоматическое обнаружение и предотвращение открытых сбоев являются критически важными в замкнутых робототехнических системах. Недавние исследования часто сталкиваются с трудностями в одновременной идентификации неожиданных сбоев реактивно после их возникновения и предотвращении предсказуемых сбоев проактивно. В этой связи мы предлагаем метод Code-as-Monitor (CaM), новую парадигму, использующую модель видения-языка (VLM) для обнаружения открытых сбоев как реактивно, так и проактивно. Основой нашего метода является формулирование обеих задач как объединенного набора проблем удовлетворения пространственно-временных ограничений и использование сгенерированного VLM кода для их оценки в реальном времени. Для улучшения точности и эффективности мониторинга мы дополнительно вводим элементы ограничений, которые абстрагируют сущности, связанные с ограничениями или их части, в компактные геометрические элементы. Этот подход предлагает большую общность, упрощает отслеживание и облегчает визуальное программирование с учетом ограничений, используя эти элементы в качестве визуальных подсказок. Эксперименты показывают, что CaM достигает более высокий процент успешных результатов на 28,7% и сокращает время выполнения на 31,8% при сильных помехах по сравнению с базовыми показателями на трех симуляторах и в реальной среде. Более того, CaM может быть интегрирован с политиками управления с открытым контуром для формирования замкнутых систем, обеспечивая выполнение задач с длительным горизонтом в перегруженных сценах с динамическими окружениями.
English
Automatic detection and prevention of open-set failures are crucial in closed-loop robotic systems. Recent studies often struggle to simultaneously identify unexpected failures reactively after they occur and prevent foreseeable ones proactively. To this end, we propose Code-as-Monitor (CaM), a novel paradigm leveraging the vision-language model (VLM) for both open-set reactive and proactive failure detection. The core of our method is to formulate both tasks as a unified set of spatio-temporal constraint satisfaction problems and use VLM-generated code to evaluate them for real-time monitoring. To enhance the accuracy and efficiency of monitoring, we further introduce constraint elements that abstract constraint-related entities or their parts into compact geometric elements. This approach offers greater generality, simplifies tracking, and facilitates constraint-aware visual programming by leveraging these elements as visual prompts. Experiments show that CaM achieves a 28.7% higher success rate and reduces execution time by 31.8% under severe disturbances compared to baselines across three simulators and a real-world setting. Moreover, CaM can be integrated with open-loop control policies to form closed-loop systems, enabling long-horizon tasks in cluttered scenes with dynamic environments.

Summary

AI-Generated Summary

PDF393December 6, 2024