Falhas Silenciosas na IA Física: Uma Revisão da Literatura sobre Autorização de Ações em Tempo de Execução para Sistemas Autônomos

Resumo

Sistemas de IA Física estão cada vez mais mapeando observações multimodais, instruções em linguagem natural e representações aprendidas do mundo em ações com consequências físicas. Modelos fundacionais de robótica, modelos visão-linguagem-ação e sistemas autônomos baseados em modelos do mundo podem condicionar decisões que movimentam veículos, robôs, drones e máquinas industriais. Essa transição expõe um problema de segurança que não é totalmente capturado pela moderação tradicional de conteúdo de IA nem pela segurança robótica clássica: um modelo de caixa preta pode emitir uma ação com consequências físicas aparentando ser confiante, plausível e semanticamente alinhada. A falha resultante pode ser silenciosa, originando-se de deriva de sensor, oclusão, erro de estimação de estado, mudança de distribuição, affordances alucinados ou suposições físicas inválidas, antes que os controladores de hardware a jusante detectem uma violação. Entre modelos fundacionais incorporados, modelos do mundo, simulação robótica, benchmarks de segurança incorporada, controle seguro, garantia em tempo de execução, estimação de incerteza, verificação e avaliação de guardrails, as capacidades dos modelos e os mecanismos de segurança avançaram ao longo de trilhas técnicas amplamente separadas. Uma lacuna recorrente sintetizada aqui é que nenhum fluxo individual pesquisado nesta revisão fornece um limite completo de autorização em tempo de execução entre modelos de IA Física de caixa preta e a execução física. A análise resultante desenvolve uma formulação de problema delimitada, uma definição de falha silenciosa de ação física, uma taxonomia de funções de guardrail em tempo de execução e requisitos de avaliação para comparar guardrails como mecanismos de garantia de IA Física.

English

Physical AI systems increasingly map multimodal observations, language instructions, and learned world representations into physically consequential actions. Robotics foundation models, vision-language-action models, and world-model-based autonomous systems can condition decisions that move vehicles, robots, drones, and industrial machines. This transition exposes a safety problem that is not fully captured by conventional AI content moderation or by classical robot safety alone: a black-box model may issue a physically consequential action while appearing confident, plausible, and semantically aligned. The resulting failure can be silent, arising from sensor drift, occlusion, state-estimation error, distribution shift, hallucinated affordances, or invalid physical assumptions before downstream hardware controllers detect a violation. Across embodied foundation models, world models, robotics simulation, embodied safety benchmarks, safe control, runtime assurance, uncertainty estimation, verification, and guardrail evaluation, model capability and safety mechanisms have advanced along largely separate technical tracks. A recurring gap synthesized here is that no single stream surveyed in this review supplies a complete runtime authorization boundary between black-box Physical AI models and physical execution. The resulting analysis develops a bounded problem formulation, a definition of silent physical-action failure, a taxonomy of runtime guardrail functions, and evaluation requirements for comparing guardrails as Physical AI assurance mechanisms.