ChatPaper.aiChatPaper

SAFE: Detección Multitarea de Fallos en Modelos Visión-Lenguaje-Acción

SAFE: Multitask Failure Detection for Vision-Language-Action Models

June 11, 2025
Autores: Qiao Gu, Yuanliang Ju, Shengxiang Sun, Igor Gilitschenski, Haruki Nishimura, Masha Itkina, Florian Shkurti
cs.AI

Resumen

Aunque los modelos de visión-lenguaje-acción (VLAs) han demostrado comportamientos robóticos prometedores en una diversidad de tareas de manipulación, logran tasas de éxito limitadas cuando se despliegan en tareas novedosas sin ajustes previos. Para permitir que estas políticas interactúen de manera segura con sus entornos, necesitamos un detector de fallos que proporcione una alerta oportuna para que el robot pueda detenerse, retroceder o solicitar ayuda. Sin embargo, los detectores de fallos existentes se entrenan y prueban solo en una o unas pocas tareas específicas, mientras que los VLAs requieren que el detector generalice y detecte fallos también en tareas no vistas y entornos novedosos. En este artículo, introducimos el problema de detección de fallos multitarea y proponemos SAFE, un detector de fallos para políticas robóticas generalistas como los VLAs. Analizamos el espacio de características de los VLAs y encontramos que estos poseen suficiente conocimiento de alto nivel sobre el éxito y el fracaso de las tareas, el cual es genérico entre diferentes tareas. Basándonos en esta observación, diseñamos SAFE para aprender a partir de las características internas de los VLAs y predecir un único escalar que indique la probabilidad de fallo en la tarea. SAFE se entrena tanto en ejecuciones exitosas como fallidas y se evalúa en tareas no vistas. SAFE es compatible con diferentes arquitecturas de políticas. Lo probamos en OpenVLA, pi_0 y pi_0-FAST tanto en entornos simulados como en el mundo real de manera extensiva. Comparamos SAFE con diversas líneas base y demostramos que SAFE alcanza un rendimiento de detección de fallos de vanguardia y el mejor equilibrio entre precisión y tiempo de detección utilizando predicción conformal. Más resultados cualitativos pueden encontrarse en https://vla-safe.github.io/.
English
While vision-language-action models (VLAs) have shown promising robotic behaviors across a diverse set of manipulation tasks, they achieve limited success rates when deployed on novel tasks out-of-the-box. To allow these policies to safely interact with their environments, we need a failure detector that gives a timely alert such that the robot can stop, backtrack, or ask for help. However, existing failure detectors are trained and tested only on one or a few specific tasks, while VLAs require the detector to generalize and detect failures also in unseen tasks and novel environments. In this paper, we introduce the multitask failure detection problem and propose SAFE, a failure detector for generalist robot policies such as VLAs. We analyze the VLA feature space and find that VLAs have sufficient high-level knowledge about task success and failure, which is generic across different tasks. Based on this insight, we design SAFE to learn from VLA internal features and predict a single scalar indicating the likelihood of task failure. SAFE is trained on both successful and failed rollouts, and is evaluated on unseen tasks. SAFE is compatible with different policy architectures. We test it on OpenVLA, pi_0, and pi_0-FAST in both simulated and real-world environments extensively. We compare SAFE with diverse baselines and show that SAFE achieves state-of-the-art failure detection performance and the best trade-off between accuracy and detection time using conformal prediction. More qualitative results can be found at https://vla-safe.github.io/.
PDF82June 12, 2025