Tex3D: Objetos como Superfícies de Ataque via Texturas 3D Adversariais para Modelos Visão-Linguagem-Ação
Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models
April 2, 2026
Autores: Jiawei Chen, Simin Huang, Jiawei Du, Shuaihang Chen, Yu Tian, Mingjie Wei, Chao Yu, Zhaoxia Yin
cs.AI
Resumo
Os modelos visão-linguagem-ação (VLA) têm demonstrado forte desempenho na manipulação robótica, mas sua robustez contra ataques adversários fisicamente realizáveis permanece pouco explorada. Estudos existentes revelam vulnerabilidades por meio de perturbações linguísticas e ataques visuais 2D, porém essas superfícies de ataque são menos representativas de implantações reais ou limitadas em realismo físico. Em contraste, texturas adversárias 3D representam uma ameaça mais plausível fisicamente e mais danosa, uma vez que são naturalmente acopladas a objetos manipulados e mais fáceis de implantar em ambientes físicos. No entanto, trazer texturas adversárias 3D para sistemas VLA não é trivial. Um obstáculo central é que simuladores 3D padrão não fornecem um caminho de otimização diferenciável da função objetivo do VLA de volta à aparência do objeto, dificultando a otimização de maneira end-to-end. Para resolver isso, introduzimos o Desacoplamento Primeiro Plano-Fundo (FBD), que permite a otimização diferenciável de texturas por meio do alinhamento de renderizadores duplos, preservando o ambiente de simulação original. Para garantir ainda que o ataque permaneça eficaz em horizontes temporais longos e diversos pontos de vista no mundo físico, propomos a Otimização Adversária Consciente da Trajetória (TAAO), que prioriza quadros criticamente comportamentais e estabiliza a otimização com uma parametrização baseada em vértices. Com base nesses projetos, apresentamos o Tex3D, o primeiro framework para otimização end-to-end de texturas adversárias 3D diretamente no ambiente de simulação VLA. Experimentos em ambientes de simulação e robótica real mostram que o Tex3D degrada significativamente o desempenho do VLA em múltiplas tarefas de manipulação, atingindo taxas de falha de tarefa de até 96,7%. Nossos resultados empíricos expõem vulnerabilidades críticas dos sistemas VLA a ataques adversários 3D fisicamente fundamentados e destacam a necessidade de treinamento consciente da robustez.
English
Vision-language-action (VLA) models have shown strong performance in robotic manipulation, yet their robustness to physically realizable adversarial attacks remains underexplored. Existing studies reveal vulnerabilities through language perturbations and 2D visual attacks, but these attack surfaces are either less representative of real deployment or limited in physical realism. In contrast, adversarial 3D textures pose a more physically plausible and damaging threat, as they are naturally attached to manipulated objects and are easier to deploy in physical environments. Bringing adversarial 3D textures to VLA systems is nevertheless nontrivial. A central obstacle is that standard 3D simulators do not provide a differentiable optimization path from the VLA objective function back to object appearance, making it difficult to optimize through an end-to-end manner. To address this, we introduce Foreground-Background Decoupling (FBD), which enables differentiable texture optimization through dual-renderer alignment while preserving the original simulation environment. To further ensure that the attack remains effective across long-horizon and diverse viewpoints in the physical world, we propose Trajectory-Aware Adversarial Optimization (TAAO), which prioritizes behaviorally critical frames and stabilizes optimization with a vertex-based parameterization. Built on these designs, we present Tex3D, the first framework for end-to-end optimization of 3D adversarial textures directly within the VLA simulation environment. Experiments in both simulation and real-robot settings show that Tex3D significantly degrades VLA performance across multiple manipulation tasks, achieving task failure rates of up to 96.7\%. Our empirical results expose critical vulnerabilities of VLA systems to physically grounded 3D adversarial attacks and highlight the need for robustness-aware training.