Esconde-Esconde em Trajetórias: Descobrindo Sinais de Falha para Monitoramento em Tempo de Execução de VLA

Resumo

Modelos Visão-Linguagem-Ação (VLA) permitem que robôs sigam instruções em linguagem natural e generalizem para diversas tarefas, mas continuam vulneráveis a falhas de execução que comprometem a confiabilidade em implantações no mundo real. Detectar tais falhas durante a execução é, portanto, crítico para a implantação robusta de sistemas corporificados. Métodos existentes de detecção de falhas ou dependem de reamostragem cara de ações ou de modelos externos, enquanto alternativas propagam rótulos de nível de trajetória uniformemente a cada instante de tempo, obscurecendo sinais de falha localizados. Neste artigo, propomos o Hide-and-Seek, uma estrutura que formula a detecção de falhas em VLA como um problema de aprendizado com supervisão grosseira. Ao combinar objetivos contrastivos entre trajetórias e intra-trajetórias, o Hide-and-Seek localiza ações indicativas de falhas e induz sinais temporais de falha estruturados a partir apenas de supervisão em nível de trajetória, sem qualquer anotação em nível de passo. Avaliamos o Hide-and-Seek no LIBERO, no VLABench e em uma plataforma robótica real com três políticas VLA representativas: OpenVLA, π_0 e π_{0.5}. Nosso método atinge desempenho de detecção de falhas multitarefa de última geração com um compromisso prático entre precisão e pontualidade sob predição conforme, e generaliza bem tanto para tarefas vistas quanto não vistas.

English

Vision-Language-Action (VLA) models enable robots to follow natural language instructions and generalize across diverse tasks, but they remain vulnerable to execution failures that compromise reliability in real-world deployment. Detecting such failures during execution is therefore critical for the robust deployment of embodied systems. Existing failure detection methods either rely on expensive action resampling or external models, while alternatives propagate trajectory-level labels uniformly across every timestep, obscuring localized failure signals. In this paper, we propose Hide-and-Seek, a framework that formulates VLA failure detection as a coarsely supervised learning problem. By combining inter-trajectory and intra-trajectory contrastive objectives, Hide-and-Seek localizes failure-indicative actions and induces temporally structured failure signals from trajectory-level supervision alone, without any step-level annotation. We evaluate Hide-and-Seek on LIBERO, VLABench, and a real-world robotic platform across three representative VLA policies: OpenVLA, π_0, and π_{0.5}.Our method achieves state-of-the-art multi-task failure detection performance with a practical accuracy--timeliness trade-off under conformal prediction, and generalizes well to both seen and unseen tasks.