Fallos Silenciosos en la IA Física: Una Revisión Bibliográfica de la Autorización de Acciones en Tiempo de Ejecución para Sistemas Autónomos

Resumen

Los sistemas de IA Física mapean cada vez más observaciones multimodales, instrucciones en lenguaje y representaciones aprendidas del mundo en acciones físicamente consecuentes. Los modelos fundacionales de robótica, los modelos visión-lenguaje-acción y los sistemas autónomos basados en modelos del mundo pueden condicionar decisiones que mueven vehículos, robots, drones y máquinas industriales. Esta transición expone un problema de seguridad que no está completamente capturado por la moderación de contenido convencional de IA ni por la seguridad robótica clásica por sí sola: un modelo de caja negra puede emitir una acción físicamente consecuente mientras parece confiado, plausible y semánticamente alineado. El fallo resultante puede ser silencioso, proveniente de deriva del sensor, oclusión, error de estimación de estado, cambio de distribución, affordances alucinados o suposiciones físicas inválidas, antes de que los controladores de hardware aguas abajo detecten una violación. A lo largo de modelos fundacionales encarnados, modelos del mundo, simulación robótica, benchmarks de seguridad para sistemas encarnados, control seguro, garantía en tiempo de ejecución, estimación de incertidumbre, verificación y evaluación de salvaguardas, la capacidad del modelo y los mecanismos de seguridad han avanzado por vías técnicas en gran medida separadas. Una brecha recurrente sintetizada aquí es que ninguna corriente única entre las revisadas proporciona un límite de autorización en tiempo de ejecución completo entre los modelos de IA Física de caja negra y la ejecución física. El análisis resultante desarrolla una formulación del problema acotada, una definición de fallo silencioso de acciones físicas, una taxonomía de funciones de salvaguarda en tiempo de ejecución y requisitos de evaluación para comparar salvaguardas como mecanismos de aseguramiento de IA Física.

English

Physical AI systems increasingly map multimodal observations, language instructions, and learned world representations into physically consequential actions. Robotics foundation models, vision-language-action models, and world-model-based autonomous systems can condition decisions that move vehicles, robots, drones, and industrial machines. This transition exposes a safety problem that is not fully captured by conventional AI content moderation or by classical robot safety alone: a black-box model may issue a physically consequential action while appearing confident, plausible, and semantically aligned. The resulting failure can be silent, arising from sensor drift, occlusion, state-estimation error, distribution shift, hallucinated affordances, or invalid physical assumptions before downstream hardware controllers detect a violation. Across embodied foundation models, world models, robotics simulation, embodied safety benchmarks, safe control, runtime assurance, uncertainty estimation, verification, and guardrail evaluation, model capability and safety mechanisms have advanced along largely separate technical tracks. A recurring gap synthesized here is that no single stream surveyed in this review supplies a complete runtime authorization boundary between black-box Physical AI models and physical execution. The resulting analysis develops a bounded problem formulation, a definition of silent physical-action failure, a taxonomy of runtime guardrail functions, and evaluation requirements for comparing guardrails as Physical AI assurance mechanisms.