Foresight: Fehlererkennung für robotische Manipulation mit langem Horizont durch aktionskonditionierte Weltmodell-Latente

Zusammenfassung

Langzeithorizontaufgaben sind in realen Robotereinsätzen üblich, doch die Fehlererkennung für solche Aufgaben ist noch wenig erforscht. Die Erkennung von Fehlern in langfristigen Roboteraufgaben ist besonders anspruchsvoll, da der Fehlerbeginn oft mehrdeutig ist und in der Regel keine dichten zeitlichen Annotationen vorliegen. Wir präsentieren Foresight, ein Rahmenwerk zur Fehlererkennung, das Manipulationstrajektorien mithilfe latenter Repräsentationen aus einem handlungsbedingten Weltmodell überwacht. Foresight wird ausschließlich mit endgültigen aufgabenbezogenen Erfolgs- oder Fehlerlabels trainiert. Durch die Nutzung prädiktiver Weltmodell-Einbettungen bietet unsere Methode ein einheitliches Rahmenwerk zur Fehlererkennung über verschiedene Politiken hinweg. Darüber hinaus verwenden wir funktionale konforme Vorhersage (FCP), um Erkennungsschwellen adaptiv zu kalibrieren. Wir evaluieren Foresight mit modernsten Vision-Language-Action-Politiken in Simulationen auf LIBERO-Long, ManiSkill-Long und BEHAVIOR-1K, vergleichen es mit modernsten Fehlererkennungsmethoden und validieren es an echten Robotern mit drei langfristigen Aufgaben an einem ReactorX-200-Arm und einer Aufgabe an einem Franka-Arm. Unsere Ergebnisse deuten darauf hin, dass handlungsbedingte Weltmodell-Einbettungen eine skalierbare Repräsentation für zuverlässige Fehlerüberwachung bei langfristigen Manipulationen bieten.

English

Long-horizon tasks are common in real-world robotic deployments, yet failure detection for such tasks remains underexplored. Detecting failures in long-horizon robotic tasks is particularly challenging because failure onset is often ambiguous and dense temporal annotations are typically unavailable. We present Foresight, a failure detection framework that monitors manipulation trajectories using latent representations from an action-conditioned world model. Foresight is trained using only final task-level success or failure labels. By leveraging predictive world-model embeddings, our method provides a unified framework for failure detection across different policies. We further use functional conformal prediction (FCP) to calibrate detection thresholds adaptively. We evaluate Foresight with state-of-the-art vision-language-action policies in simulation on LIBERO-Long, ManiSkill-Long, and BEHAVIOR-1K, compare it against state-of-the-artfailure detection methods, and validate it on real robots with three long-horizon tasks on a ReactorX-200 arm and one task on a Franka arm. Our results suggest that action-conditioned world-model embeddings provide a scalable representation for reliable failure monitoring in long-horizon manipulation.