코드-모니터: 반응 및 적극적 로봇 실패 감지를 위한 제약 조건 인식 비주얼 프로그래밍
Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection
December 5, 2024
저자: Enshen Zhou, Qi Su, Cheng Chi, Zhizheng Zhang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, He Wang
cs.AI
초록
닫힌 루프 로봇 시스템에서의 오픈셋 실패의 자동 감지와 예방은 중요합니다. 최근 연구들은 종종 예기치 못한 실패를 사후적으로 식별하고 예견 가능한 실패를 선행적으로 방지하는 것에 어려움을 겪고 있습니다. 이를 위해 우리는 Code-as-Monitor (CaM)이라는 새로운 패러다임을 제안합니다. 이는 비전-언어 모델 (VLM)을 활용하여 오픈셋 반응적 및 선행적 실패 감지를 위한 것입니다. 우리 방법의 핵심은 두 작업을 통합된 시공간 제약 조건 문제 집합으로 정의하고 VLM이 생성한 코드를 사용하여 실시간 모니터링하기 위한 것입니다. 모니터링의 정확도와 효율성을 향상시키기 위해 우리는 제약 관련 entity나 그 일부를 간결한 기하학적 요소로 추상화하는 제약 요소를 도입합니다. 이 접근 방식은 더 큰 일반성을 제공하며 추적을 단순화하고 시각적 프롬프트로 이러한 요소를 활용하여 제약 인식 비주얼 프로그래밍을 용이하게 합니다. 실험 결과, CaM은 세 개의 시뮬레이터와 현실 세팅에서 기준에 비해 28.7% 높은 성공률을 달성하고, 심한 방해 조건에서 실행 시간을 31.8% 줄입니다. 또한 CaM은 오픈루프 제어 정책과 통합하여 닫힌 루프 시스템을 형성함으로써 혼잡한 환경과 동적 환경에서 장기적인 과제를 수행할 수 있습니다.
English
Automatic detection and prevention of open-set failures are crucial in
closed-loop robotic systems. Recent studies often struggle to simultaneously
identify unexpected failures reactively after they occur and prevent
foreseeable ones proactively. To this end, we propose Code-as-Monitor (CaM), a
novel paradigm leveraging the vision-language model (VLM) for both open-set
reactive and proactive failure detection. The core of our method is to
formulate both tasks as a unified set of spatio-temporal constraint
satisfaction problems and use VLM-generated code to evaluate them for real-time
monitoring. To enhance the accuracy and efficiency of monitoring, we further
introduce constraint elements that abstract constraint-related entities or
their parts into compact geometric elements. This approach offers greater
generality, simplifies tracking, and facilitates constraint-aware visual
programming by leveraging these elements as visual prompts. Experiments show
that CaM achieves a 28.7% higher success rate and reduces execution time by
31.8% under severe disturbances compared to baselines across three simulators
and a real-world setting. Moreover, CaM can be integrated with open-loop
control policies to form closed-loop systems, enabling long-horizon tasks in
cluttered scenes with dynamic environments.Summary
AI-Generated Summary