Тихие отказы в физическом ИИ: обзор литературы по авторизации действий во время выполнения для автономных систем

Аннотация

Системы физического ИИ всё чаще преобразуют мультимодальные наблюдения, языковые инструкции и изученные представления мира в физически значимые действия. Фундаментальные модели робототехники, модели «зрение–язык–действие» и автономные системы, основанные на моделях мира, могут обусловливать решения, которые управляют транспортными средствами, роботами, дронами и промышленными машинами. Такой переход выявляет проблему безопасности, которая не полностью охватывается ни традиционной модерацией контента в ИИ, ни классической робототехнической безопасностью: «чёрный ящик» модели может выдавать физически значимое действие, при этом выглядеть уверенным, правдоподобным и семантически согласованным. Возникающий сбой может быть скрытым, возникая из-за дрейфа датчиков, окклюзии, ошибки оценки состояния, смещения распределения, галлюцинированных аффордансов или неверных физических допущений ещё до того, как нижележащие аппаратные контроллеры обнаружат нарушение. В области воплощённых фундаментальных моделей, моделей мира, симуляции робототехники, бенчмарков безопасности воплощённых систем, безопасного управления, гарантий времени выполнения, оценки неопределённости, верификации и оценки защитных механизмов, возможности моделей и механизмы безопасности развивались в основном по отдельным техническим траекториям. Обобщённый здесь повторяющийся разрыв заключается в том, что ни одно из рассмотренных в данном обзоре направлений не предоставляет полной границы авторизации времени выполнения между «чёрными ящиками» физических моделей ИИ и физическим исполнением. На основе этого анализа разрабатывается ограниченная постановка задачи, определение скрытого отказа физического действия, таксономия функций защитных ограничителей времени выполнения и требования к оценке для сравнения таких ограничителей как механизмов обеспечения безопасности физического ИИ.

English

Physical AI systems increasingly map multimodal observations, language instructions, and learned world representations into physically consequential actions. Robotics foundation models, vision-language-action models, and world-model-based autonomous systems can condition decisions that move vehicles, robots, drones, and industrial machines. This transition exposes a safety problem that is not fully captured by conventional AI content moderation or by classical robot safety alone: a black-box model may issue a physically consequential action while appearing confident, plausible, and semantically aligned. The resulting failure can be silent, arising from sensor drift, occlusion, state-estimation error, distribution shift, hallucinated affordances, or invalid physical assumptions before downstream hardware controllers detect a violation. Across embodied foundation models, world models, robotics simulation, embodied safety benchmarks, safe control, runtime assurance, uncertainty estimation, verification, and guardrail evaluation, model capability and safety mechanisms have advanced along largely separate technical tracks. A recurring gap synthesized here is that no single stream surveyed in this review supplies a complete runtime authorization boundary between black-box Physical AI models and physical execution. The resulting analysis develops a bounded problem formulation, a definition of silent physical-action failure, a taxonomy of runtime guardrail functions, and evaluation requirements for comparing guardrails as Physical AI assurance mechanisms.