Défaillances silencieuses dans l'IA physique : une revue de la littérature sur l'autorisation d'actions en temps réel pour les systèmes autonomes

Résumé

Les systèmes d’IA physique cartographient de plus en plus des observations multimodales, des instructions langagières et des représentations apprises du monde en actions ayant des conséquences physiques. Les modèles fondamentaux de robotique, les modèles vision-langage-action et les systèmes autonomes basés sur des modèles du monde peuvent conditionner des décisions qui actionnent des véhicules, des robots, des drones et des machines industrielles. Cette transition expose un problème de sécurité qui n’est pas pleinement pris en compte par la modération de contenu conventionnelle de l’IA ni par la sécurité robotique classique seule : un modèle boîte noire peut émettre une action physiquement conséquente tout en paraissant confiant, plausible et sémantiquement aligné. La défaillance qui en résulte peut être silencieuse, provenant d’une dérive des capteurs, d’une occlusion, d’une erreur d’estimation d’état, d’un décalage de distribution, d’affordances hallucinées ou d’hypothèses physiques invalides avant que les contrôleurs matériels en aval ne détectent une violation. À travers les modèles fondamentaux incarnés, les modèles du monde, la simulation robotique, les références de sécurité incarnée, le contrôle sûr, l’assurance à l’exécution, l’estimation d’incertitude, la vérification et l’évaluation des garde-fous, les capacités des modèles et les mécanismes de sécurité ont progressé selon des trajectoires techniques largement distinctes. Un écart récurrent synthétisé ici est qu’aucun flux unique parmi ceux examinés dans cette revue ne fournit une frontière d’autorisation complète à l’exécution entre les modèles d’IA physique boîte noire et l’exécution physique. L’analyse qui en résulte développe une formulation de problème bornée, une définition de la défaillance silencieuse d’action physique, une taxonomie des fonctions de garde-fou à l’exécution, et des exigences d’évaluation pour comparer les garde-fous en tant que mécanismes d’assurance de l’IA physique.

English

Physical AI systems increasingly map multimodal observations, language instructions, and learned world representations into physically consequential actions. Robotics foundation models, vision-language-action models, and world-model-based autonomous systems can condition decisions that move vehicles, robots, drones, and industrial machines. This transition exposes a safety problem that is not fully captured by conventional AI content moderation or by classical robot safety alone: a black-box model may issue a physically consequential action while appearing confident, plausible, and semantically aligned. The resulting failure can be silent, arising from sensor drift, occlusion, state-estimation error, distribution shift, hallucinated affordances, or invalid physical assumptions before downstream hardware controllers detect a violation. Across embodied foundation models, world models, robotics simulation, embodied safety benchmarks, safe control, runtime assurance, uncertainty estimation, verification, and guardrail evaluation, model capability and safety mechanisms have advanced along largely separate technical tracks. A recurring gap synthesized here is that no single stream surveyed in this review supplies a complete runtime authorization boundary between black-box Physical AI models and physical execution. The resulting analysis develops a bounded problem formulation, a definition of silent physical-action failure, a taxonomy of runtime guardrail functions, and evaluation requirements for comparing guardrails as Physical AI assurance mechanisms.