Previsión: Detección de fallos para manipulación robótica de largo horizonte con latentes de modelo del mundo condicionados por la acción

Resumen

Las tareas de horizonte largo son comunes en despliegues robóticos del mundo real, pero la detección de fallos en dichas tareas sigue estando poco explorada. Detectar fallos en tareas robóticas de horizonte largo es particularmente desafiante porque el inicio del fallo suele ser ambiguo y, típicamente, no se dispone de anotaciones temporales densas. Presentamos Foresight, un marco de detección de fallos que monitorea trayectorias de manipulación utilizando representaciones latentes de un modelo del mundo condicionado por la acción. Foresight se entrena únicamente con etiquetas finales de éxito o fallo a nivel de tarea. Al aprovechar las incrustaciones predictivas del modelo del mundo, nuestro método proporciona un marco unificado para la detección de fallos en diferentes políticas. Además, utilizamos predicción conforme funcional (FCP) para calibrar los umbrales de detección de forma adaptativa. Evaluamos Foresight con políticas de visión-lenguaje-acción de última generación en simulación en LIBERO-Long, ManiSkill-Long y BEHAVIOR-1K, lo comparamos con métodos de detección de fallos del estado del arte y lo validamos en robots reales con tres tareas de horizonte largo en un brazo ReactorX-200 y una tarea en un brazo Franka. Nuestros resultados sugieren que las incrustaciones del modelo del mundo condicionadas por la acción proporcionan una representación escalable para un monitoreo confiable de fallos en la manipulación de horizonte largo.

English

Long-horizon tasks are common in real-world robotic deployments, yet failure detection for such tasks remains underexplored. Detecting failures in long-horizon robotic tasks is particularly challenging because failure onset is often ambiguous and dense temporal annotations are typically unavailable. We present Foresight, a failure detection framework that monitors manipulation trajectories using latent representations from an action-conditioned world model. Foresight is trained using only final task-level success or failure labels. By leveraging predictive world-model embeddings, our method provides a unified framework for failure detection across different policies. We further use functional conformal prediction (FCP) to calibrate detection thresholds adaptively. We evaluate Foresight with state-of-the-art vision-language-action policies in simulation on LIBERO-Long, ManiSkill-Long, and BEHAVIOR-1K, compare it against state-of-the-artfailure detection methods, and validate it on real robots with three long-horizon tasks on a ReactorX-200 arm and one task on a Franka arm. Our results suggest that action-conditioned world-model embeddings provide a scalable representation for reliable failure monitoring in long-horizon manipulation.