Tex3D: Objecten als Aanvalsoppervlakken via Adversariële 3D-Texturen voor Visie-Taal-Actie-Modellen
Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models
April 2, 2026
Auteurs: Jiawei Chen, Simin Huang, Jiawei Du, Shuaihang Chen, Yu Tian, Mingjie Wei, Chao Yu, Zhaoxia Yin
cs.AI
Samenvatting
Vision-language-action (VLA)-modellen tonen sterke prestaties bij robotmanipulatie, maar hun robuustheid tegen fysiek realiseerbare adversariële aanvallen is nog onvoldoende onderzocht. Bestaande onderzoeken onthullen kwetsbaarheden via taalkundige perturbaties en 2D-visuele aanvallen, maar deze aanvalsoppervlakken zijn minder representatief voor echte inzet of beperkt in fysieke realistischheid. Daarentegen vormen adversariële 3D-textures een fysiek plausibelere en schadelijkere dreiging, omdat ze van nature aan gemanipuleerde objecten zijn bevestigd en eenvoudiger in fysieke omgevingen kunnen worden ingezet. Het toepassen van adversariële 3D-textures op VLA-systemen is echter niet triviaal. Een centrale hindernis is dat standaard 3D-simulators geen differentieerbaar optimalisatiepad bieden van de VLA-doelfunctie terug naar het objectuiterlijk, wat end-to-end optimalisatie bemoeilijkt. Om dit op te lossen introduceren we Foreground-Background Decoupling (FBD), dat differentieerbare textuuroptimalisatie mogelijk maakt door dual-renderer-alignment, terwijl de oorspronkelijke simulatieomgeving behouden blijft. Om verder te garanderen dat de aanval effectief blijft over lange tijdsperioden en diverse gezichtspunten in de fysieke wereld, stellen we Trajectory-Aware Adversarial Optimization (TAAO) voor, die gedragskritieke frames prioriteert en de optimalisatie stabiliseert met een op hoekpunten gebaseerde parameterisatie. Gebaseerd op deze ontwerpen presenteren we Tex3D, het eerste raamwerk voor end-to-end optimalisatie van 3D-adversariële textures rechtstreeks in de VLA-simulatieomgeving. Experimenten in zowel simulatie- als echte robotomgevingen tonen aan dat Tex3D de VLA-prestaties bij meerdere manipulatietaken significant verslechtert, met taakfoutpercentages tot 96,7%. Onze empirische resultaten leggen kritieke kwetsbaarheden van VLA-systemen voor fysiek verankerde 3D-adversariële aanvallen bloot en benadrukken de noodzaak van robuustheidsbewuste training.
English
Vision-language-action (VLA) models have shown strong performance in robotic manipulation, yet their robustness to physically realizable adversarial attacks remains underexplored. Existing studies reveal vulnerabilities through language perturbations and 2D visual attacks, but these attack surfaces are either less representative of real deployment or limited in physical realism. In contrast, adversarial 3D textures pose a more physically plausible and damaging threat, as they are naturally attached to manipulated objects and are easier to deploy in physical environments. Bringing adversarial 3D textures to VLA systems is nevertheless nontrivial. A central obstacle is that standard 3D simulators do not provide a differentiable optimization path from the VLA objective function back to object appearance, making it difficult to optimize through an end-to-end manner. To address this, we introduce Foreground-Background Decoupling (FBD), which enables differentiable texture optimization through dual-renderer alignment while preserving the original simulation environment. To further ensure that the attack remains effective across long-horizon and diverse viewpoints in the physical world, we propose Trajectory-Aware Adversarial Optimization (TAAO), which prioritizes behaviorally critical frames and stabilizes optimization with a vertex-based parameterization. Built on these designs, we present Tex3D, the first framework for end-to-end optimization of 3D adversarial textures directly within the VLA simulation environment. Experiments in both simulation and real-robot settings show that Tex3D significantly degrades VLA performance across multiple manipulation tasks, achieving task failure rates of up to 96.7\%. Our empirical results expose critical vulnerabilities of VLA systems to physically grounded 3D adversarial attacks and highlight the need for robustness-aware training.