ChatPaper.aiChatPaper

SAFE: Rilevamento Multitask dei Fallimenti per Modelli Visione-Linguaggio-Azione

SAFE: Multitask Failure Detection for Vision-Language-Action Models

June 11, 2025
Autori: Qiao Gu, Yuanliang Ju, Shengxiang Sun, Igor Gilitschenski, Haruki Nishimura, Masha Itkina, Florian Shkurti
cs.AI

Abstract

Sebbene i modelli visione-linguaggio-azione (VLA) abbiano dimostrato comportamenti robotici promettenti in un'ampia gamma di attività di manipolazione, ottengono tassi di successo limitati quando vengono implementati in nuovi task senza ulteriori adattamenti. Per consentire a queste politiche di interagire in sicurezza con il loro ambiente, è necessario un rilevatore di fallimenti che fornisca un allarme tempestivo, permettendo al robot di fermarsi, tornare indietro o chiedere aiuto. Tuttavia, i rilevatori di fallimenti esistenti vengono addestrati e testati solo su uno o pochi task specifici, mentre i VLA richiedono che il rilevatore sia in grado di generalizzare e individuare fallimenti anche in task non visti e in ambienti nuovi. In questo articolo, introduciamo il problema del rilevamento multitask dei fallimenti e proponiamo SAFE, un rilevatore di fallimenti per politiche robotiche generaliste come i VLA. Analizziamo lo spazio delle caratteristiche dei VLA e scopriamo che questi possiedono una conoscenza di alto livello sufficiente riguardo al successo e al fallimento del task, che è generica tra diversi compiti. Basandoci su questa intuizione, progettiamo SAFE per apprendere dalle caratteristiche interne dei VLA e prevedere un singolo scalare che indica la probabilità di fallimento del task. SAFE viene addestrato su rollout sia riusciti che falliti e viene valutato su task non visti. SAFE è compatibile con diverse architetture di politiche. Lo testiamo su OpenVLA, pi_0 e pi_0-FAST sia in ambienti simulati che nel mondo reale in modo estensivo. Confrontiamo SAFE con diverse baseline e dimostriamo che SAFE raggiunge prestazioni all'avanguardia nel rilevamento dei fallimenti e il miglior compromesso tra accuratezza e tempo di rilevamento utilizzando la previsione conforme. Ulteriori risultati qualitativi sono disponibili su https://vla-safe.github.io/.
English
While vision-language-action models (VLAs) have shown promising robotic behaviors across a diverse set of manipulation tasks, they achieve limited success rates when deployed on novel tasks out-of-the-box. To allow these policies to safely interact with their environments, we need a failure detector that gives a timely alert such that the robot can stop, backtrack, or ask for help. However, existing failure detectors are trained and tested only on one or a few specific tasks, while VLAs require the detector to generalize and detect failures also in unseen tasks and novel environments. In this paper, we introduce the multitask failure detection problem and propose SAFE, a failure detector for generalist robot policies such as VLAs. We analyze the VLA feature space and find that VLAs have sufficient high-level knowledge about task success and failure, which is generic across different tasks. Based on this insight, we design SAFE to learn from VLA internal features and predict a single scalar indicating the likelihood of task failure. SAFE is trained on both successful and failed rollouts, and is evaluated on unseen tasks. SAFE is compatible with different policy architectures. We test it on OpenVLA, pi_0, and pi_0-FAST in both simulated and real-world environments extensively. We compare SAFE with diverse baselines and show that SAFE achieves state-of-the-art failure detection performance and the best trade-off between accuracy and detection time using conformal prediction. More qualitative results can be found at https://vla-safe.github.io/.
PDF82June 12, 2025