Предвидение: Обнаружение сбоев в долгосрочном роботизированном манипулировании с использованием латентных представлений модели мира, обусловленных действиями

Аннотация

Задачи с длительным горизонтом распространены в реальных робототехнических применениях, однако обнаружение сбоев для таких задач остается недостаточно изученным. Обнаружение сбоев в робототехнических задачах с длительным горизонтом особенно сложно, поскольку начало сбоя часто неоднозначно, а плотные временные аннотации обычно недоступны. Мы представляем Foresight — систему обнаружения сбоев, которая отслеживает траектории манипуляции, используя латентные представления из обусловленной действиями модели мира. Foresight обучается с использованием только конечных меток успеха или сбоя на уровне задачи. Используя предиктивные представления модели мира, наш метод предоставляет единую основу для обнаружения сбоев для различных стратегий. Кроме того, мы используем функциональное конформное прогнозирование (FCP) для адаптивной калибровки порогов обнаружения. Мы оцениваем Foresight с использованием современных политик «зрение-язык-действие» в симуляции на LIBERO-Long, ManiSkill-Long и BEHAVIOR-1K, сравниваем его с современными методами обнаружения сбоев и проверяем на реальных роботах с тремя задачами длительного горизонта на манипуляторе ReactorX-200 и одной задачей на манипуляторе Franka. Наши результаты показывают, что представления обусловленной действиями модели мира обеспечивают масштабируемое представление для надежного мониторинга сбоев в манипуляции с длительным горизонтом.

English

Long-horizon tasks are common in real-world robotic deployments, yet failure detection for such tasks remains underexplored. Detecting failures in long-horizon robotic tasks is particularly challenging because failure onset is often ambiguous and dense temporal annotations are typically unavailable. We present Foresight, a failure detection framework that monitors manipulation trajectories using latent representations from an action-conditioned world model. Foresight is trained using only final task-level success or failure labels. By leveraging predictive world-model embeddings, our method provides a unified framework for failure detection across different policies. We further use functional conformal prediction (FCP) to calibrate detection thresholds adaptively. We evaluate Foresight with state-of-the-art vision-language-action policies in simulation on LIBERO-Long, ManiSkill-Long, and BEHAVIOR-1K, compare it against state-of-the-artfailure detection methods, and validate it on real robots with three long-horizon tasks on a ReactorX-200 arm and one task on a Franka arm. Our results suggest that action-conditioned world-model embeddings provide a scalable representation for reliable failure monitoring in long-horizon manipulation.