Versteckspiel in Trajektorien: Entdecken von Fehlersignalen für die VLA-Laufzeitüberwachung

Zusammenfassung

Vision-Language-Action (VLA)-Modelle ermöglichen es Robotern, natürlichsprachliche Anweisungen zu befolgen und über verschiedene Aufgaben hinweg zu generalisieren, bleiben jedoch anfällig für Ausführungsfehler, die die Zuverlässigkeit im realen Einsatz beeinträchtigen. Die Erkennung solcher Fehler während der Ausführung ist daher für den robusten Einsatz verkörperter Systeme von entscheidender Bedeutung. Bestehende Methoden zur Fehlererkennung basieren entweder auf teurem erneuten Sampling von Aktionen oder auf externen Modellen, während Alternativen Trajektorien-bezogene Labels gleichmäßig über jeden Zeitschritt propagieren und dabei lokalisierte Fehlersignale verschleiern. In dieser Arbeit schlagen wir Hide-and-Seek vor, ein Framework, das die VLA-Fehlererkennung als grob überwachtes Lernproblem formuliert. Durch die Kombination von kontrastiven Zielen zwischen und innerhalb von Trajektorien lokalisiert Hide-and-Seek fehlerindikative Aktionen und induziert zeitlich strukturierte Fehlersignale allein aus der Trajektorienebenen-Überwachung, ohne jegliche Annotation auf Schritt-Ebene. Wir evaluieren Hide-and-Seek auf LIBERO, VLABench und einer realen Roboterplattform mit drei repräsentativen VLA-Policies: OpenVLA, π_0 und π_{0.5}. Unsere Methode erzielt eine hochmoderne Mehrfachaufgaben-Fehlererkennungsleistung mit einem praktischen Genauigkeits-Zeitnähe-Kompromiss unter konformer Vorhersage und generalisiert gut auf sowohl bekannte als auch unbekannte Aufgaben.

English

Vision-Language-Action (VLA) models enable robots to follow natural language instructions and generalize across diverse tasks, but they remain vulnerable to execution failures that compromise reliability in real-world deployment. Detecting such failures during execution is therefore critical for the robust deployment of embodied systems. Existing failure detection methods either rely on expensive action resampling or external models, while alternatives propagate trajectory-level labels uniformly across every timestep, obscuring localized failure signals. In this paper, we propose Hide-and-Seek, a framework that formulates VLA failure detection as a coarsely supervised learning problem. By combining inter-trajectory and intra-trajectory contrastive objectives, Hide-and-Seek localizes failure-indicative actions and induces temporally structured failure signals from trajectory-level supervision alone, without any step-level annotation. We evaluate Hide-and-Seek on LIBERO, VLABench, and a real-world robotic platform across three representative VLA policies: OpenVLA, π_0, and π_{0.5}.Our method achieves state-of-the-art multi-task failure detection performance with a practical accuracy--timeliness trade-off under conformal prediction, and generalizes well to both seen and unseen tasks.