Foresight : Détection d'échecs pour la manipulation robotique à long horizon avec des latents de modèle du monde conditionnés par l'action

Résumé

Les tâches à long horizon sont courantes dans les déploiements robotiques réels, mais la détection des défaillances pour de telles tâches reste sous-explorée. Détecter les défaillances dans les tâches robotiques à long horizon est particulièrement difficile car l'apparition des défaillances est souvent ambiguë et les annotations temporelles denses sont généralement indisponibles. Nous présentons Foresight, un cadre de détection des défaillances qui surveille les trajectoires de manipulation en utilisant des représentations latentes issues d'un modèle du monde conditionné par les actions. Foresight est entraîné en utilisant uniquement les étiquettes finales de succès ou d'échec au niveau de la tâche. En exploitant les embeddings prédictifs du modèle du monde, notre méthode fournit un cadre unifié pour la détection des défaillances à travers différentes politiques. Nous utilisons en outre la prédiction conforme fonctionnelle (FCP) pour calibrer les seuils de détection de manière adaptative. Nous évaluons Foresight avec des politiques vision-langage-action de pointe en simulation sur LIBERO-Long, ManiSkill-Long et BEHAVIOR-1K, le comparons aux méthodes de détection des défaillances de pointe, et le validons sur des robots réels avec trois tâches à long horizon sur un bras ReactorX-200 et une tâche sur un bras Franka. Nos résultats suggèrent que les embeddings de modèle du monde conditionnés par les actions fournissent une représentation scalable pour une surveillance fiable des défaillances dans la manipulation à long horizon.

English

Long-horizon tasks are common in real-world robotic deployments, yet failure detection for such tasks remains underexplored. Detecting failures in long-horizon robotic tasks is particularly challenging because failure onset is often ambiguous and dense temporal annotations are typically unavailable. We present Foresight, a failure detection framework that monitors manipulation trajectories using latent representations from an action-conditioned world model. Foresight is trained using only final task-level success or failure labels. By leveraging predictive world-model embeddings, our method provides a unified framework for failure detection across different policies. We further use functional conformal prediction (FCP) to calibrate detection thresholds adaptively. We evaluate Foresight with state-of-the-art vision-language-action policies in simulation on LIBERO-Long, ManiSkill-Long, and BEHAVIOR-1K, compare it against state-of-the-artfailure detection methods, and validate it on real robots with three long-horizon tasks on a ReactorX-200 arm and one task on a Franka arm. Our results suggest that action-conditioned world-model embeddings provide a scalable representation for reliable failure monitoring in long-horizon manipulation.