Tex3D: Objekte als Angriffsflächen durch adversarielle 3D-Texturen für Vision-Sprache-Handlung-Modelle

Zusammenfassung

Vision-Language-Action (VLA)-Modelle zeigen starke Leistungen in der robotischen Manipulation, doch ihre Robustheit gegenüber physikalisch realisierbaren adversariellen Angriffen ist noch wenig erforscht. Bestehende Studien decken Schwachstellen durch Sprachperturbationen und 2D-Bildangriffe auf, doch diese Angriffsflächen sind entweder weniger repräsentativ für den realen Einsatz oder in ihrer physikalischen Realitätsnähe begrenzt. Im Gegensatz dazu stellen adversarielle 3D-Texturen eine physikalisch plausiblere und schädlichere Bedrohung dar, da sie natürlich an manipulierten Objekten angebracht sind und sich einfacher in physischen Umgebungen einsetzen lassen. Die Übertragung adversarieller 3D-Texturen auf VLA-Systeme ist jedoch nicht trivial. Ein zentrales Hindernis ist, dass Standard-3D-Simulatoren keinen differenzierbaren Optimierungspfad von der VLA-Zielfunktion zurück zum Objekterscheinungsbild bereitstellen, was eine end-to-end-Optimierung erschwert. Um dies zu adressieren, führen wir Foreground-Background Decoupling (FBD) ein, das eine differenzierbare Texturoptimierung durch Dual-Renderer-Abgleich ermöglicht und dabei die ursprüngliche Simulationsumgebung beibehält. Um weiterhin sicherzustellen, dass der Angriff über lange Zeithorizonte und diverse Blickwinkel in der physischen Welt wirksam bleibt, schlagen wir Trajectory-Aware Adversarial Optimization (TAAO) vor, das verhaltenskritische Frames priorisiert und die Optimierung mit einer vertexbasierten Parametrisierung stabilisiert. Aufbauend auf diesen Designs präsentieren wir Tex3D, das erste Framework zur end-to-end-Optimierung von 3D-adversariellen Texturen direkt innerhalb der VLA-Simulationsumgebung. Experimente sowohl in der Simulation als auch in realen Robotikumgebungen zeigen, dass Tex3D die VLA-Leistung über mehrere Manipulationsaufgaben hinweg erheblich verschlechtert und Ausfallraten von bis zu 96,7 % erreicht. Unsere empirischen Ergebnisse legen kritische Schwachstellen von VLA-Systemen gegenüber physikalisch fundierten 3D-adversariellen Angriffen offen und unterstreichen die Notwendigkeit von Robustheits-bewusstem Training.

English

Vision-language-action (VLA) models have shown strong performance in robotic manipulation, yet their robustness to physically realizable adversarial attacks remains underexplored. Existing studies reveal vulnerabilities through language perturbations and 2D visual attacks, but these attack surfaces are either less representative of real deployment or limited in physical realism. In contrast, adversarial 3D textures pose a more physically plausible and damaging threat, as they are naturally attached to manipulated objects and are easier to deploy in physical environments. Bringing adversarial 3D textures to VLA systems is nevertheless nontrivial. A central obstacle is that standard 3D simulators do not provide a differentiable optimization path from the VLA objective function back to object appearance, making it difficult to optimize through an end-to-end manner. To address this, we introduce Foreground-Background Decoupling (FBD), which enables differentiable texture optimization through dual-renderer alignment while preserving the original simulation environment. To further ensure that the attack remains effective across long-horizon and diverse viewpoints in the physical world, we propose Trajectory-Aware Adversarial Optimization (TAAO), which prioritizes behaviorally critical frames and stabilizes optimization with a vertex-based parameterization. Built on these designs, we present Tex3D, the first framework for end-to-end optimization of 3D adversarial textures directly within the VLA simulation environment. Experiments in both simulation and real-robot settings show that Tex3D significantly degrades VLA performance across multiple manipulation tasks, achieving task failure rates of up to 96.7\%. Our empirical results expose critical vulnerabilities of VLA systems to physically grounded 3D adversarial attacks and highlight the need for robustness-aware training.

Tex3D: Objekte als Angriffsflächen durch adversarielle 3D-Texturen für Vision-Sprache-Handlung-Modelle

Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models

Zusammenfassung

Support