Código-como-Monitor: Programação Visual Consciente de Restrições para Detecção de Falhas Robóticas Reativas e Proativas
Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection
December 5, 2024
Autores: Enshen Zhou, Qi Su, Cheng Chi, Zhizheng Zhang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, He Wang
cs.AI
Resumo
A detecção automática e prevenção de falhas de conjunto aberto são cruciais em sistemas robóticos de loop fechado. Estudos recentes frequentemente têm dificuldade em identificar simultaneamente falhas inesperadas de forma reativa após sua ocorrência e prevenir aquelas previsíveis de forma proativa. Para isso, propomos o Código como Monitor (CaM), um novo paradigma que utiliza o modelo visão-linguagem (VLM) para detecção de falhas reativas e proativas de conjunto aberto. O cerne do nosso método é formular ambas as tarefas como um conjunto unificado de problemas de satisfação de restrições espaço-temporais e utilizar código gerado pelo VLM para avaliá-los para monitoramento em tempo real. Para aprimorar a precisão e eficiência do monitoramento, introduzimos elementos de restrição que abstraem entidades relacionadas a restrições ou suas partes em elementos geométricos compactos. Essa abordagem oferece maior generalidade, simplifica o rastreamento e facilita a programação visual consciente de restrições, aproveitando esses elementos como sugestões visuais. Experimentos mostram que o CaM alcança uma taxa de sucesso 28,7% maior e reduz o tempo de execução em 31,8% sob perturbações severas em comparação com baselines em três simuladores e em um ambiente do mundo real. Além disso, o CaM pode ser integrado com políticas de controle em malha aberta para formar sistemas em malha fechada, possibilitando tarefas de longo prazo em cenas congestionadas com ambientes dinâmicos.
English
Automatic detection and prevention of open-set failures are crucial in
closed-loop robotic systems. Recent studies often struggle to simultaneously
identify unexpected failures reactively after they occur and prevent
foreseeable ones proactively. To this end, we propose Code-as-Monitor (CaM), a
novel paradigm leveraging the vision-language model (VLM) for both open-set
reactive and proactive failure detection. The core of our method is to
formulate both tasks as a unified set of spatio-temporal constraint
satisfaction problems and use VLM-generated code to evaluate them for real-time
monitoring. To enhance the accuracy and efficiency of monitoring, we further
introduce constraint elements that abstract constraint-related entities or
their parts into compact geometric elements. This approach offers greater
generality, simplifies tracking, and facilitates constraint-aware visual
programming by leveraging these elements as visual prompts. Experiments show
that CaM achieves a 28.7% higher success rate and reduces execution time by
31.8% under severe disturbances compared to baselines across three simulators
and a real-world setting. Moreover, CaM can be integrated with open-loop
control policies to form closed-loop systems, enabling long-horizon tasks in
cluttered scenes with dynamic environments.Summary
AI-Generated Summary