ChatPaper.aiChatPaper

Code-als-Monitor: Beperking-bewuste Visuele Programmering voor Reactieve en Proactieve Robotische Foutdetectie

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

December 5, 2024
Auteurs: Enshen Zhou, Qi Su, Cheng Chi, Zhizheng Zhang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, He Wang
cs.AI

Samenvatting

Automatische detectie en preventie van open-set storingen zijn cruciaal in gesloten-lus robotica systemen. Recente studies hebben vaak moeite om onverwachte storingen tegelijkertijd reactief te identificeren nadat ze zich hebben voorgedaan en om voorzienbare storingen proactief te voorkomen. Met dit doel voor ogen stellen wij Code-als-Monitor (CaM) voor, een nieuw paradigma dat gebruikmaakt van het visie-taalmodel (VLM) voor zowel open-set reactieve als proactieve storingsdetectie. De kern van onze methode is om beide taken te formuleren als een verenigde reeks van ruimtelijke-temporele beperkingsvraagstukken en VLM-generieerde code te gebruiken om ze te evalueren voor real-time monitoring. Om de nauwkeurigheid en efficiëntie van monitoring te verbeteren, introduceren we verder beperkingselementen die beperking-gerelateerde entiteiten of hun delen abstraheren tot compacte geometrische elementen. Deze benadering biedt meer algemeenheid, vereenvoudigt tracking en vergemakkelijkt beperkingsbewuste visuele programmering door deze elementen te gebruiken als visuele aanwijzingen. Experimenten tonen aan dat CaM een succespercentage van 28,7% hoger behaalt en de uitvoeringstijd met 31,8% vermindert onder ernstige verstoringen in vergelijking met baselines over drie simulatoren en een real-world omgeving. Bovendien kan CaM geïntegreerd worden met open-lus besturingsbeleid om gesloten-lus systemen te vormen, waardoor taken op lange termijn mogelijk zijn in drukke scènes met dynamische omgevingen.
English
Automatic detection and prevention of open-set failures are crucial in closed-loop robotic systems. Recent studies often struggle to simultaneously identify unexpected failures reactively after they occur and prevent foreseeable ones proactively. To this end, we propose Code-as-Monitor (CaM), a novel paradigm leveraging the vision-language model (VLM) for both open-set reactive and proactive failure detection. The core of our method is to formulate both tasks as a unified set of spatio-temporal constraint satisfaction problems and use VLM-generated code to evaluate them for real-time monitoring. To enhance the accuracy and efficiency of monitoring, we further introduce constraint elements that abstract constraint-related entities or their parts into compact geometric elements. This approach offers greater generality, simplifies tracking, and facilitates constraint-aware visual programming by leveraging these elements as visual prompts. Experiments show that CaM achieves a 28.7% higher success rate and reduces execution time by 31.8% under severe disturbances compared to baselines across three simulators and a real-world setting. Moreover, CaM can be integrated with open-loop control policies to form closed-loop systems, enabling long-horizon tasks in cluttered scenes with dynamic environments.
PDF393December 6, 2024