ChatPaper.aiChatPaper

코드-모니터: 반응 및 적극적 로봇 실패 감지를 위한 제약 조건 인식 비주얼 프로그래밍

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

December 5, 2024
저자: Enshen Zhou, Qi Su, Cheng Chi, Zhizheng Zhang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, He Wang
cs.AI

초록

닫힌 루프 로봇 시스템에서의 오픈셋 실패의 자동 감지와 예방은 중요합니다. 최근 연구들은 종종 예기치 못한 실패를 사후적으로 식별하고 예견 가능한 실패를 선행적으로 방지하는 것에 어려움을 겪고 있습니다. 이를 위해 우리는 Code-as-Monitor (CaM)이라는 새로운 패러다임을 제안합니다. 이는 비전-언어 모델 (VLM)을 활용하여 오픈셋 반응적 및 선행적 실패 감지를 위한 것입니다. 우리 방법의 핵심은 두 작업을 통합된 시공간 제약 조건 문제 집합으로 정의하고 VLM이 생성한 코드를 사용하여 실시간 모니터링하기 위한 것입니다. 모니터링의 정확도와 효율성을 향상시키기 위해 우리는 제약 관련 entity나 그 일부를 간결한 기하학적 요소로 추상화하는 제약 요소를 도입합니다. 이 접근 방식은 더 큰 일반성을 제공하며 추적을 단순화하고 시각적 프롬프트로 이러한 요소를 활용하여 제약 인식 비주얼 프로그래밍을 용이하게 합니다. 실험 결과, CaM은 세 개의 시뮬레이터와 현실 세팅에서 기준에 비해 28.7% 높은 성공률을 달성하고, 심한 방해 조건에서 실행 시간을 31.8% 줄입니다. 또한 CaM은 오픈루프 제어 정책과 통합하여 닫힌 루프 시스템을 형성함으로써 혼잡한 환경과 동적 환경에서 장기적인 과제를 수행할 수 있습니다.
English
Automatic detection and prevention of open-set failures are crucial in closed-loop robotic systems. Recent studies often struggle to simultaneously identify unexpected failures reactively after they occur and prevent foreseeable ones proactively. To this end, we propose Code-as-Monitor (CaM), a novel paradigm leveraging the vision-language model (VLM) for both open-set reactive and proactive failure detection. The core of our method is to formulate both tasks as a unified set of spatio-temporal constraint satisfaction problems and use VLM-generated code to evaluate them for real-time monitoring. To enhance the accuracy and efficiency of monitoring, we further introduce constraint elements that abstract constraint-related entities or their parts into compact geometric elements. This approach offers greater generality, simplifies tracking, and facilitates constraint-aware visual programming by leveraging these elements as visual prompts. Experiments show that CaM achieves a 28.7% higher success rate and reduces execution time by 31.8% under severe disturbances compared to baselines across three simulators and a real-world setting. Moreover, CaM can be integrated with open-loop control policies to form closed-loop systems, enabling long-horizon tasks in cluttered scenes with dynamic environments.

Summary

AI-Generated Summary

PDF393December 6, 2024