Sicurezza Visione-Linguaggio-Azione: Minacce, Sfide, Valutazioni e Meccanismi

Abstract

I modelli Vision-Language-Action (VLA) si stanno affermando come un substrato unificato per l'intelligenza incarnata. Questo cambiamento solleva una nuova classe di sfide per la sicurezza, derivanti dalla natura incarnata dei sistemi VLA, che includono conseguenze fisiche irreversibili, una superficie di attacco multimodale che coinvolge visione, linguaggio e stato, vincoli di latenza in tempo reale per la difesa, propagazione degli errori su traiettorie a lungo orizzonte e vulnerabilità nella catena di approvvigionamento dei dati. Tuttavia, la letteratura rimane frammentata tra apprendimento robotico, apprendimento automatico adversarial, allineamento dell'IA e sicurezza dei sistemi autonomi. Questa rassegna fornisce una panoramica unificata e aggiornata della sicurezza nei modelli Vision-Language-Action. Organizziamo il campo lungo due assi temporali paralleli: tempistica dell'attacco (tempo di addestramento vs. tempo di inferenza) e tempistica della difesa (tempo di addestramento vs. tempo di inferenza), collegando ogni classe di minaccia alla fase in cui può essere mitigata. Definiamo innanzitutto l'ambito della sicurezza VLA, distinguendola dalla sicurezza dei modelli linguistici di grandi dimensioni (LLM) basati solo su testo e dalla sicurezza robotica classica, e rivediamo le fondamenta dei modelli VLA, incluse architetture, paradigmi di addestramento e meccanismi di inferenza. Esaminiamo quindi la letteratura attraverso quattro lenti: Attacchi, Difese, Valutazione e Implementazione. Analizziamo le minacce al tempo di addestramento come l'avvelenamento dei dati e i backdoor, nonché gli attacchi al tempo di inferenza che includono patch adversarial, perturbazioni cross-modali, jailbreak semantici e attacchi di freezing. Rivediamo le difese al tempo di addestramento e in tempo reale, analizziamo i benchmark e le metriche esistenti e discutiamo le sfide di sicurezza in sei domini di implementazione. Infine, evidenziamo i principali problemi aperti, tra cui la robustezza certificata per le traiettorie incarnate, difese fisicamente realizzabili, addestramento consapevole della sicurezza, architetture di sicurezza in tempo reale unificate e valutazione standardizzata.

English

Vision-Language-Action (VLA) models are emerging as a unified substrate for embodied intelligence. This shift raises a new class of safety challenges, stemming from the embodied nature of VLA systems, including irreversible physical consequences, a multimodal attack surface across vision, language, and state, real-time latency constraints on defense, error propagation over long-horizon trajectories, and vulnerabilities in the data supply chain. Yet the literature remains fragmented across robotic learning, adversarial machine learning, AI alignment, and autonomous systems safety. This survey provides a unified and up-to-date overview of safety in Vision-Language-Action models. We organize the field along two parallel timing axes, attack timing (training-time vs. inference-time and defense timing (training-time vs. inference-time, linking each class of threat to the stage at which it can be mitigated. We first define the scope of VLA safety, distinguishing it from text-only LLM safety and classical robotic safety, and review the foundations of VLA models, including architectures, training paradigms, and inference mechanisms. We then examine the literature through four lenses: Attacks, Defenses, Evaluation, and Deployment. We survey training-time threats such as data poisoning and backdoors, as well as inference-time attacks including adversarial patches, cross-modal perturbations, semantic jailbreaks, and freezing attacks. We review training-time and runtime defenses, analyze existing benchmarks and metrics, and discuss safety challenges across six deployment domains. Finally, we highlight key open problems, including certified robustness for embodied trajectories, physically realizable defenses, safety-aware training, unified runtime safety architectures, and standardized evaluation.

Sicurezza Visione-Linguaggio-Azione: Minacce, Sfide, Valutazioni e Meccanismi

Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms

Abstract

Support