Прятки в траекториях: обнаружение сигналов сбоев для мониторинга VLA во время выполнения

Аннотация

Модели Vision-Language-Action (VLA) позволяют роботам следовать инструкциям на естественном языке и обобщать полученные знания на разнообразные задачи, однако они остаются уязвимыми к сбоям выполнения, что снижает их надежность при реальном развертывании. Поэтому обнаружение таких сбоев во время выполнения имеет критическое значение для надежного развертывания воплощенных систем. Существующие методы обнаружения сбоев либо полагаются на дорогостоящее повторное семплирование действий или внешние модели, либо альтернативные подходы равномерно распространяют метки на уровне траекторий на каждый временной шаг, скрывая локализованные сигналы сбоев. В данной статье мы предлагаем Hide-and-Seek — framework, который формулирует обнаружение сбоев VLA как задачу слабо контролируемого обучения. Комбинируя межтраекторные и внутритраекторные контрастивные цели, Hide-and-Seek локализует действия, указывающие на сбои, и извлекает временно структурированные сигналы сбоев исключительно из супервизии на уровне траекторий, без какой-либо пошаговой аннотации. Мы оцениваем Hide-and-Seek на LIBERO, VLABench и реальной роботизированной платформе с использованием трех репрезентативных политик VLA: OpenVLA, π_0 и π_{0.5}. Наш метод достигает передовой производительности в обнаружении сбоев для множества задач, обеспечивая практический компромисс между точностью и своевременностью в рамках конформного прогнозирования, а также хорошо обобщается как на знакомые, так и на незнакомые задачи.

English

Vision-Language-Action (VLA) models enable robots to follow natural language instructions and generalize across diverse tasks, but they remain vulnerable to execution failures that compromise reliability in real-world deployment. Detecting such failures during execution is therefore critical for the robust deployment of embodied systems. Existing failure detection methods either rely on expensive action resampling or external models, while alternatives propagate trajectory-level labels uniformly across every timestep, obscuring localized failure signals. In this paper, we propose Hide-and-Seek, a framework that formulates VLA failure detection as a coarsely supervised learning problem. By combining inter-trajectory and intra-trajectory contrastive objectives, Hide-and-Seek localizes failure-indicative actions and induces temporally structured failure signals from trajectory-level supervision alone, without any step-level annotation. We evaluate Hide-and-Seek on LIBERO, VLABench, and a real-world robotic platform across three representative VLA policies: OpenVLA, π_0, and π_{0.5}.Our method achieves state-of-the-art multi-task failure detection performance with a practical accuracy--timeliness trade-off under conformal prediction, and generalizes well to both seen and unseen tasks.