Segurança Visão-Linguagem-Ação: Ameaças, Desafios, Avaliações e Mecanismos

Resumo

Os modelos Visão-Linguagem-Ação (VLA) estão a emergir como um substrato unificado para a inteligência incorporada. Esta mudança levanta uma nova classe de desafios de segurança, decorrentes da natureza incorporada dos sistemas VLA, incluindo consequências físicas irreversíveis, uma superfície de ataque multimodal através da visão, linguagem e estado, restrições de latência em tempo real na defesa, propagação de erros em trajetórias de longo horizonte e vulnerabilidades na cadeia de fornecimento de dados. No entanto, a literatura permanece fragmentada entre a aprendizagem robótica, a aprendizagem automática adversária, o alinhamento da IA e a segurança de sistemas autónomos. Este estudo fornece uma visão geral unificada e atualizada sobre a segurança em modelos Visão-Linguagem-Ação. Organizamos o campo ao longo de dois eixos temporais paralelos: *timing* do ataque (*training-time* vs. *inference-time*) e *timing* da defesa (*training-time* vs. *inference-time*), ligando cada classe de ameaça à fase em que pode ser mitigada. Primeiro, definimos o âmbito da segurança VLA, distinguindo-a da segurança de LLMs apenas de texto e da segurança robótica clássica, e revemos os fundamentos dos modelos VLA, incluindo arquiteturas, paradigmas de treino e mecanismos de inferência. De seguida, examinamos a literatura através de quatro lentes: Ataques, Defesas, Avaliação e Implementação. Analisamos ameaças durante o treino, como envenenamento de dados e *backdoors*, bem como ataques durante a inferência, incluindo *patches* adversariais, perturbações multimodais, *jailbreaks* semânticos e ataques de congelamento. Revemos defesas durante o treino e em tempo de execução, analisamos *benchmarks* e métricas existentes e discutimos os desafios de segurança em seis domínios de implementação. Por fim, destacamos problemas em aberto fundamentais, incluindo robustez certificada para trajetórias incorporadas, defesas fisicamente realizáveis, treino com consciência de segurança, arquiteturas de segurança unificadas em tempo de execução e avaliação padronizada.

English

Vision-Language-Action (VLA) models are emerging as a unified substrate for embodied intelligence. This shift raises a new class of safety challenges, stemming from the embodied nature of VLA systems, including irreversible physical consequences, a multimodal attack surface across vision, language, and state, real-time latency constraints on defense, error propagation over long-horizon trajectories, and vulnerabilities in the data supply chain. Yet the literature remains fragmented across robotic learning, adversarial machine learning, AI alignment, and autonomous systems safety. This survey provides a unified and up-to-date overview of safety in Vision-Language-Action models. We organize the field along two parallel timing axes, attack timing (training-time vs. inference-time and defense timing (training-time vs. inference-time, linking each class of threat to the stage at which it can be mitigated. We first define the scope of VLA safety, distinguishing it from text-only LLM safety and classical robotic safety, and review the foundations of VLA models, including architectures, training paradigms, and inference mechanisms. We then examine the literature through four lenses: Attacks, Defenses, Evaluation, and Deployment. We survey training-time threats such as data poisoning and backdoors, as well as inference-time attacks including adversarial patches, cross-modal perturbations, semantic jailbreaks, and freezing attacks. We review training-time and runtime defenses, analyze existing benchmarks and metrics, and discuss safety challenges across six deployment domains. Finally, we highlight key open problems, including certified robustness for embodied trajectories, physically realizable defenses, safety-aware training, unified runtime safety architectures, and standardized evaluation.

Segurança Visão-Linguagem-Ação: Ameaças, Desafios, Avaliações e Mecanismos

Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms

Resumo

Support