Tex3D: Los objetos como superficies de ataque mediante texturas 3D adversarias para modelos de visión-lenguaje-acción

Resumen

Los modelos visión-lenguaje-acción (VLA) han demostrado un sólido rendimiento en la manipulación robótica, pero su robustez frente a ataques adversarios físicamente realizables sigue estando poco explorada. Los estudios existentes revelan vulnerabilidades mediante perturbaciones lingüísticas y ataques visuales 2D, pero estas superficies de ataque son poco representativas del despliegue real o están limitadas en realismo físico. Por el contrario, las texturas adversarias 3D representan una amenaza más plausible físicamente y más dañina, ya que se adhieren naturalmente a los objetos manipulados y son más fáciles de implementar en entornos físicos. Sin embargo, llevar las texturas adversarias 3D a los sistemas VLA no es trivial. Un obstáculo central es que los simuladores 3D estándar no proporcionan una ruta de optimización diferenciable desde la función objetivo del VLA hasta la apariencia del objeto, lo que dificulta la optimización de un extremo a otro. Para abordar esto, presentamos el Desacoplamiento Primer-Plano-Fondo (FBD), que permite la optimización diferenciable de texturas mediante la alineación de renderizadores duales mientras se preserva el entorno de simulación original. Para garantizar además que el ataque permanezca efectivo a través de horizontes temporales largos y diversos puntos de vista en el mundo físico, proponemos la Optimización Adversaria Consciente de la Trayectoria (TAAO), que prioriza los fotogramas críticos conductuales y estabiliza la optimización con una parametrización basada en vértices. Basado en estos diseños, presentamos Tex3D, el primer marco para la optimización end-to-end de texturas adversarias 3D directamente dentro del entorno de simulación VLA. Los experimentos en entornos de simulación y con robots reales muestran que Tex3D degrada significativamente el rendimiento de los VLA en múltiples tareas de manipulación, logrando tasas de fallo de tarea de hasta el 96,7%. Nuestros resultados empíricos exponen vulnerabilidades críticas de los sistemas VLA a ataques adversarios 3D físicamente fundamentados y resaltan la necesidad de un entrenamiento consciente de la robustez.

English

Vision-language-action (VLA) models have shown strong performance in robotic manipulation, yet their robustness to physically realizable adversarial attacks remains underexplored. Existing studies reveal vulnerabilities through language perturbations and 2D visual attacks, but these attack surfaces are either less representative of real deployment or limited in physical realism. In contrast, adversarial 3D textures pose a more physically plausible and damaging threat, as they are naturally attached to manipulated objects and are easier to deploy in physical environments. Bringing adversarial 3D textures to VLA systems is nevertheless nontrivial. A central obstacle is that standard 3D simulators do not provide a differentiable optimization path from the VLA objective function back to object appearance, making it difficult to optimize through an end-to-end manner. To address this, we introduce Foreground-Background Decoupling (FBD), which enables differentiable texture optimization through dual-renderer alignment while preserving the original simulation environment. To further ensure that the attack remains effective across long-horizon and diverse viewpoints in the physical world, we propose Trajectory-Aware Adversarial Optimization (TAAO), which prioritizes behaviorally critical frames and stabilizes optimization with a vertex-based parameterization. Built on these designs, we present Tex3D, the first framework for end-to-end optimization of 3D adversarial textures directly within the VLA simulation environment. Experiments in both simulation and real-robot settings show that Tex3D significantly degrades VLA performance across multiple manipulation tasks, achieving task failure rates of up to 96.7\%. Our empirical results expose critical vulnerabilities of VLA systems to physically grounded 3D adversarial attacks and highlight the need for robustness-aware training.

Tex3D: Los objetos como superficies de ataque mediante texturas 3D adversarias para modelos de visión-lenguaje-acción

Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models

Resumen

Support