Visie-Taal-Actie Veiligheid: Bedreigingen, Uitdagingen, Evaluaties en Mechanismen

Samenvatting

Vision-Language-Action (VLA)-modellen ontstaan als een uniform substraat voor belichaamde intelligentie. Deze verschuiving brengt een nieuwe klasse van veiligheidsuitdagingen met zich mee, die voortvloeien uit de belichaamde aard van VLA-systemen. Deze omvatten onomkeerbare fysieke gevolgen, een multimodaal aanvalsoppervlak over visie, taal en toestand, real-time latentiebeperkingen voor verdediging, foutpropagatie over langetermijntrajecten en kwetsbaarheden in de datatoevoerketen. Desalniettemin blijft de literatuur gefragmenteerd over robotica-leren, adversarial machine learning, AI-alignment en veiligheid van autonome systemen. Dit overzichtsartikel biedt een uniform en actueel overzicht van veiligheid in Vision-Language-Action-modellen. We structuren het vakgebied langs twee parallelle timingassen: aanvalstiming (tijdens training vs. tijdens inferentie) en verdedigingstiming (tijdens training vs. tijdens inferentie), waarbij we elke klasse van bedreiging koppelen aan het stadium waarin deze kan worden gemitigeerd. We definiëren eerst de reikwijdte van VLA-veiligheid, onderscheiden deze van de veiligheid van tekstuele LLM's en klassieke robotveiligheid, en bespreken de fundamenten van VLA-modellen, inclusief architecturen, trainingsparadigma's en inferentiemechanismen. Vervolgens onderzoeken we de literatuur door vier lenzen: Aanvallen, Verdedigingen, Evaluatie en Implementatie. We bespreken bedreigingen tijdens de training, zoals data poisoning en backdoors, evenals aanvallen tijdens inferentie, waaronder adversarial patches, cross-modale perturbaties, semantische jailbreaks en freezing-aanvallen. We behandelen verdedigingen tijdens training en runtime, analyseren bestaande benchmarks en metrieken, en bespreken veiligheidsuitdagingen in zes implementatiedomeinen. Ten slotte belichten we belangrijke open problemen, waaronder gecertificeerde robuustheid voor belichaamde trajecten, fysiek realiseerbare verdedigingen, veiligheidsbewuste training, uniforme runtime-veiligheidsarchitecturen en gestandaardiseerde evaluatie.

English

Vision-Language-Action (VLA) models are emerging as a unified substrate for embodied intelligence. This shift raises a new class of safety challenges, stemming from the embodied nature of VLA systems, including irreversible physical consequences, a multimodal attack surface across vision, language, and state, real-time latency constraints on defense, error propagation over long-horizon trajectories, and vulnerabilities in the data supply chain. Yet the literature remains fragmented across robotic learning, adversarial machine learning, AI alignment, and autonomous systems safety. This survey provides a unified and up-to-date overview of safety in Vision-Language-Action models. We organize the field along two parallel timing axes, attack timing (training-time vs. inference-time and defense timing (training-time vs. inference-time, linking each class of threat to the stage at which it can be mitigated. We first define the scope of VLA safety, distinguishing it from text-only LLM safety and classical robotic safety, and review the foundations of VLA models, including architectures, training paradigms, and inference mechanisms. We then examine the literature through four lenses: Attacks, Defenses, Evaluation, and Deployment. We survey training-time threats such as data poisoning and backdoors, as well as inference-time attacks including adversarial patches, cross-modal perturbations, semantic jailbreaks, and freezing attacks. We review training-time and runtime defenses, analyze existing benchmarks and metrics, and discuss safety challenges across six deployment domains. Finally, we highlight key open problems, including certified robustness for embodied trajectories, physically realizable defenses, safety-aware training, unified runtime safety architectures, and standardized evaluation.

Visie-Taal-Actie Veiligheid: Bedreigingen, Uitdagingen, Evaluaties en Mechanismen

Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms

Samenvatting

Support