Stille Ausfälle in der physischen KI: Eine Literaturübersicht zur Laufzeit-Aktionsautorisierung für autonome Systeme

Zusammenfassung

Physische KI-Systeme bilden zunehmend multimodale Beobachtungen, Sprachbefehle und gelernte Weltrepräsentationen auf physikalisch folgenreiche Handlungen ab. Robotik-Grundlagenmodelle, Vision-Language-Action-Modelle und weltmodellbasierte autonome Systeme können Entscheidungen konditionieren, die Fahrzeuge, Roboter, Drohnen und Industriemaschinen bewegen. Dieser Übergang offenbart ein Sicherheitsproblem, das von konventioneller KI-Inhaltsmoderation oder klassischer Robotiksicherheit allein nicht vollständig erfasst wird: Ein Black-Box-Modell kann eine physikalisch folgenreiche Handlung ausführen, während es sicher, plausibel und semantisch kohärent erscheint. Der resultierende Fehler kann still sein, verursacht durch Sensordrift, Okklusion, Zustandsschätzungsfehler, Verteilungsverschiebung, halluzinierte Affordanzen oder ungültige physikalische Annahmen, bevor nachgelagerte Hardware-Controller eine Verletzung erkennen. Über verkörperte Grundlagenmodelle, Weltmodelle, Robotiksimulation, Sicherheitsbenchmarks für verkörperte KI, sichere Steuerung, Laufzeitsicherheit, Unsicherheitsschätzung, Verifikation und Guardrail-Evaluierung hinweg haben sich Modellfähigkeiten und Sicherheitsmechanismen weitgehend auf getrennten technischen Pfaden entwickelt. Eine wiederkehrende Lücke, die hier synthetisiert wird, besteht darin, dass kein einzelner, in dieser Übersicht betrachteter Ansatz eine vollständige Laufzeit-Autorisierungsgrenze zwischen Black-Box-Physischen-KI-Modellen und physikalischer Ausführung bereitstellt. Die resultierende Analyse entwickelt eine abgegrenzte Problemformulierung, eine Definition des stillen physikalischen Handlungsfehlers, eine Taxonomie von Laufzeit-Guardrail-Funktionen sowie Evaluierungsanforderungen für den Vergleich von Guardrails als Sicherungsmechanismen für Physische KI.

English

Physical AI systems increasingly map multimodal observations, language instructions, and learned world representations into physically consequential actions. Robotics foundation models, vision-language-action models, and world-model-based autonomous systems can condition decisions that move vehicles, robots, drones, and industrial machines. This transition exposes a safety problem that is not fully captured by conventional AI content moderation or by classical robot safety alone: a black-box model may issue a physically consequential action while appearing confident, plausible, and semantically aligned. The resulting failure can be silent, arising from sensor drift, occlusion, state-estimation error, distribution shift, hallucinated affordances, or invalid physical assumptions before downstream hardware controllers detect a violation. Across embodied foundation models, world models, robotics simulation, embodied safety benchmarks, safe control, runtime assurance, uncertainty estimation, verification, and guardrail evaluation, model capability and safety mechanisms have advanced along largely separate technical tracks. A recurring gap synthesized here is that no single stream surveyed in this review supplies a complete runtime authorization boundary between black-box Physical AI models and physical execution. The resulting analysis develops a bounded problem formulation, a definition of silent physical-action failure, a taxonomy of runtime guardrail functions, and evaluation requirements for comparing guardrails as Physical AI assurance mechanisms.