Tex3D : Les objets comme surfaces d'attaque via les textures 3D antagonistes pour les modèles vision-langage-action

Résumé

Les modèles vision-langage-action (VLA) ont démontré de fortes performances en manipulation robotique, mais leur robustesse face à des attaques adverses physiquement réalisables reste peu explorée. Les études existantes révèlent des vulnérabilités via des perturbations linguistiques et des attaques visuelles 2D, mais ces surfaces d'attaque sont soit peu représentatives des déploiements réels, soit limitées en réalisme physique. En revanche, les textures 3D adverses constituent une menace plus plausible physiquement et plus dommageable, car elles sont naturellement attachées aux objets manipulés et plus faciles à déployer dans des environnements physiques. Cependant, l'intégration de textures 3D adverses dans les systèmes VLA n'est pas triviale. Un obstacle central est que les simulateurs 3D standard ne fournissent pas de chemin d'optimisation différentiable de la fonction objectif VLA vers l'apparence des objets, rendant difficile une optimisation de bout en bout. Pour résoudre ce problème, nous introduisons le Découplage Premier Plan-Arrière-plan (FBD), qui permet une optimisation differentiable des textures via un alignement à double moteur de rendu tout en préservant l'environnement de simulation original. Pour garantir en outre que l'attaque reste efficace sur des horizons temporels longs et sous des points de vue divers dans le monde physique, nous proposons l'Optimisation Adversaire Sensible à la Trajectoire (TAAO), qui priorise les images comportementalement critiques et stabilise l'optimisation avec une paramétrisation basée sur les sommets. Fort de ces conceptions, nous présentons Tex3D, le premier cadre d'optimisation de bout en bout de textures adverses 3D directement dans l'environnement de simulation VLA. Les expériences en simulation et sur robots réels montrent que Tex3D dégrade significativement les performances des VLA sur de multiples tâches de manipulation, atteignant des taux d'échec allant jusqu'à 96,7 %. Nos résultats empiriques exposent des vulnérabilités critiques des systèmes VLA face à des attaques adverses 3D ancrées dans le physique et soulignent la nécessité d'un entraînement conscient de la robustesse.

English

Vision-language-action (VLA) models have shown strong performance in robotic manipulation, yet their robustness to physically realizable adversarial attacks remains underexplored. Existing studies reveal vulnerabilities through language perturbations and 2D visual attacks, but these attack surfaces are either less representative of real deployment or limited in physical realism. In contrast, adversarial 3D textures pose a more physically plausible and damaging threat, as they are naturally attached to manipulated objects and are easier to deploy in physical environments. Bringing adversarial 3D textures to VLA systems is nevertheless nontrivial. A central obstacle is that standard 3D simulators do not provide a differentiable optimization path from the VLA objective function back to object appearance, making it difficult to optimize through an end-to-end manner. To address this, we introduce Foreground-Background Decoupling (FBD), which enables differentiable texture optimization through dual-renderer alignment while preserving the original simulation environment. To further ensure that the attack remains effective across long-horizon and diverse viewpoints in the physical world, we propose Trajectory-Aware Adversarial Optimization (TAAO), which prioritizes behaviorally critical frames and stabilizes optimization with a vertex-based parameterization. Built on these designs, we present Tex3D, the first framework for end-to-end optimization of 3D adversarial textures directly within the VLA simulation environment. Experiments in both simulation and real-robot settings show that Tex3D significantly degrades VLA performance across multiple manipulation tasks, achieving task failure rates of up to 96.7\%. Our empirical results expose critical vulnerabilities of VLA systems to physically grounded 3D adversarial attacks and highlight the need for robustness-aware training.

Tex3D : Les objets comme surfaces d'attaque via les textures 3D antagonistes pour les modèles vision-langage-action

Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models

Résumé

Support