Cache-cache dans les trajectoires : Découverte des signaux de défaillance pour la supervision en temps réel de VLA

Résumé

Les modèles Vision-Langage-Action (VLA) permettent aux robots de suivre des instructions en langage naturel et de généraliser à diverses tâches, mais ils restent vulnérables aux défaillances d'exécution qui compromettent leur fiabilité lors du déploiement en conditions réelles. Par conséquent, détecter ces défaillances pendant l'exécution est crucial pour le déploiement robuste de systèmes incarnés. Les méthodes existantes de détection des défaillances reposent soit sur un rééchantillonnage coûteux des actions, soit sur des modèles externes, tandis que d'autres alternatives propagent uniformément les étiquettes au niveau des trajectoires à chaque pas de temps, masquant ainsi les signaux locaux de défaillance. Dans cet article, nous proposons Hide-and-Seek, un cadre qui formule la détection des défaillances des modèles VLA comme un problème d'apprentissage faiblement supervisé. En combinant des objectifs contrastifs inter-trajectoires et intra-trajectoires, Hide-and-Seek localise les actions indicatrices de défaillance et génère des signaux de défaillance structurés temporellement à partir de la seule supervision au niveau des trajectoires, sans aucune annotation au niveau des pas. Nous évaluons Hide-and-Seek sur LIBERO, VLABench et une plateforme robotique réelle, avec trois politiques VLA représentatives : OpenVLA, π_0 et π_{0,5}. Notre méthode atteint des performances de détection de défaillance multi-tâches de pointe avec un compromis précision-rapidité pratique sous prédiction conforme, et se généralise bien aux tâches vues et non vues.

English

Vision-Language-Action (VLA) models enable robots to follow natural language instructions and generalize across diverse tasks, but they remain vulnerable to execution failures that compromise reliability in real-world deployment. Detecting such failures during execution is therefore critical for the robust deployment of embodied systems. Existing failure detection methods either rely on expensive action resampling or external models, while alternatives propagate trajectory-level labels uniformly across every timestep, obscuring localized failure signals. In this paper, we propose Hide-and-Seek, a framework that formulates VLA failure detection as a coarsely supervised learning problem. By combining inter-trajectory and intra-trajectory contrastive objectives, Hide-and-Seek localizes failure-indicative actions and induces temporally structured failure signals from trajectory-level supervision alone, without any step-level annotation. We evaluate Hide-and-Seek on LIBERO, VLABench, and a real-world robotic platform across three representative VLA policies: OpenVLA, π_0, and π_{0.5}.Our method achieves state-of-the-art multi-task failure detection performance with a practical accuracy--timeliness trade-off under conformal prediction, and generalizes well to both seen and unseen tasks.