Foresight: Foutdetectie voor Robotmanipulatie over Lange Horizon met Actie-geconditioneerde Wereldmodellatenten

Samenvatting

Taken met een lange horizon komen veel voor in robotische toepassingen in de echte wereld, maar foutdetectie voor dergelijke taken blijft onderbelicht. Het detecteren van fouten in robotische taken met een lange horizon is bijzonder uitdagend omdat het begin van een fout vaak dubbelzinnig is en dichte temporele annotaties doorgaans niet beschikbaar zijn. We presenteren Foresight, een raamwerk voor foutdetectie dat manipulatiebanen monitort met behulp van latente representaties van een actie-geconditioneerd wereldmodel. Foresight wordt getraind met alleen uiteindelijke taaklabels voor succes of falen. Door gebruik te maken van voorspellende inbeddingen van het wereldmodel, biedt onze methode een uniform raamwerk voor foutdetectie over verschillende beleidslijnen heen. We gebruiken verder functionele conforme voorspelling (FCP) om detectiedrempels adaptief te kalibreren. We evalueren Foresight met state-of-the-art visie-taal-actiebeleidslijnen in simulatie op LIBERO-Long, ManiSkill-Long en BEHAVIOR-1K, vergelijken het met state-of-the-art foutdetectiemethoden, en valideren het op echte robots met drie taken met een lange horizon op een ReactorX-200 arm en één taak op een Franka arm. Onze resultaten suggereren dat actie-geconditioneerde inbeddingen van wereldmodellen een schaalbare representatie bieden voor betrouwbare foutmonitoring bij manipulatie met een lange horizon.

English

Long-horizon tasks are common in real-world robotic deployments, yet failure detection for such tasks remains underexplored. Detecting failures in long-horizon robotic tasks is particularly challenging because failure onset is often ambiguous and dense temporal annotations are typically unavailable. We present Foresight, a failure detection framework that monitors manipulation trajectories using latent representations from an action-conditioned world model. Foresight is trained using only final task-level success or failure labels. By leveraging predictive world-model embeddings, our method provides a unified framework for failure detection across different policies. We further use functional conformal prediction (FCP) to calibrate detection thresholds adaptively. We evaluate Foresight with state-of-the-art vision-language-action policies in simulation on LIBERO-Long, ManiSkill-Long, and BEHAVIOR-1K, compare it against state-of-the-artfailure detection methods, and validate it on real robots with three long-horizon tasks on a ReactorX-200 arm and one task on a Franka arm. Our results suggest that action-conditioned world-model embeddings provide a scalable representation for reliable failure monitoring in long-horizon manipulation.