El juego del escondite en trayectorias: Descubriendo señales de fallo para el monitoreo en tiempo de ejecución de VLA

Resumen

Los modelos de Visión-Lenguaje-Acción (VLA) permiten que los robots sigan instrucciones en lenguaje natural y se generalicen a diversas tareas, pero siguen siendo vulnerables a fallos de ejecución que comprometen la fiabilidad en despliegues reales. Detectar dichos fallos durante la ejecución es, por tanto, fundamental para el despliegue robusto de sistemas encarnados. Los métodos existentes de detección de fallos o bien dependen de un costoso remuestreo de acciones o de modelos externos, mientras que las alternativas propagan etiquetas a nivel de trayectoria de manera uniforme en cada paso temporal, ocultando señales de fallo localizadas. En este artículo, proponemos Hide-and-Seek, un marco que formula la detección de fallos en VLA como un problema de aprendizaje con supervisión gruesa. Al combinar objetivos contrastivos entre trayectorias e intra-trayectoria, Hide-and-Seek localiza acciones indicativas de fallos e induce señales de fallo estructuradas temporalmente a partir únicamente de la supervisión a nivel de trayectoria, sin necesidad de anotaciones a nivel de paso. Evaluamos Hide-and-Seek en LIBERO, VLABench y una plataforma robótica real con tres políticas VLA representativas: OpenVLA, π_0 y π_{0.5}. Nuestro método alcanza un rendimiento de detección de fallos multitarea de última generación con un compromiso práctico entre precisión y oportunidad bajo predicción conforme, y se generaliza bien tanto a tareas vistas como no vistas.

English

Vision-Language-Action (VLA) models enable robots to follow natural language instructions and generalize across diverse tasks, but they remain vulnerable to execution failures that compromise reliability in real-world deployment. Detecting such failures during execution is therefore critical for the robust deployment of embodied systems. Existing failure detection methods either rely on expensive action resampling or external models, while alternatives propagate trajectory-level labels uniformly across every timestep, obscuring localized failure signals. In this paper, we propose Hide-and-Seek, a framework that formulates VLA failure detection as a coarsely supervised learning problem. By combining inter-trajectory and intra-trajectory contrastive objectives, Hide-and-Seek localizes failure-indicative actions and induces temporally structured failure signals from trajectory-level supervision alone, without any step-level annotation. We evaluate Hide-and-Seek on LIBERO, VLABench, and a real-world robotic platform across three representative VLA policies: OpenVLA, π_0, and π_{0.5}.Our method achieves state-of-the-art multi-task failure detection performance with a practical accuracy--timeliness trade-off under conformal prediction, and generalizes well to both seen and unseen tasks.