Tex3D: Объекты как поверхности атаки через состязательные 3D-текстуры для моделей "зрение-язык-действие"
Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models
April 2, 2026
Авторы: Jiawei Chen, Simin Huang, Jiawei Du, Shuaihang Chen, Yu Tian, Mingjie Wei, Chao Yu, Zhaoxia Yin
cs.AI
Аннотация
Модели "визуальный язык-действие" (VLA) демонстрируют высокую производительность в задачах роботизированного манипулирования, однако их устойчивость к физически реализуемым атакам остается малоизученной. Существующие исследования выявляют уязвимости через лингвистические возмущения и двумерные визуальные атаки, но эти поверхности атаки либо слабо отражают условия реального развертывания, либо ограничены в физической реалистичности. В отличие от них, адверсарные 3D-текстуры представляют более физически правдоподобную и разрушительную угрозу, поскольку они естественным образом наносятся на манипулируемые объекты и их проще развернуть в физической среде. Однако применение адверсарных 3D-текстур в системах VLA является нетривиальной задачей. Ключевым препятствием служит то, что стандартные 3D-симуляторы не предоставляют дифференцируемого пути оптимизации от целевой функции VLA к внешнему виду объекта, что затрудняет сквозную оптимизацию. Для решения этой проблемы мы предлагаем метод разделения переднего и заднего плана (Foreground-Background Decoupling, FBD), который обеспечивает дифференцируемую оптимизацию текстур через согласование двойного рендерера, сохраняя при этом исходную среду симуляции. Чтобы дополнительно гарантировать эффективность атаки при длительных временных горизонтах и с разнообразных точек обзора в физическом мире, мы предлагаем траекторно-осознанную адверсарную оптимизацию (Trajectory-Aware Adversarial Optimization, TAAO), которая расставляет приоритеты поведенчески критическим кадрам и стабилизирует оптимизацию с помощью вершинной параметризации. На основе этих разработок мы представляем Tex3D — первую платформу для сквозной оптимизации адверсарных 3D-текстур непосредственно в среде симуляции VLA. Эксперименты как в симуляции, так и в условиях работы с реальным роботом показывают, что Tex3D существенно снижает производительность VLA в различных задачах манипулирования, достигая частоты сбоев задач до 96,7%. Наши эмпирические результаты выявляют критические уязвимости систем VLA к физически обоснованным 3D-адверсарным атакам и подчеркивают необходимость обучения с учетом устойчивости.
English
Vision-language-action (VLA) models have shown strong performance in robotic manipulation, yet their robustness to physically realizable adversarial attacks remains underexplored. Existing studies reveal vulnerabilities through language perturbations and 2D visual attacks, but these attack surfaces are either less representative of real deployment or limited in physical realism. In contrast, adversarial 3D textures pose a more physically plausible and damaging threat, as they are naturally attached to manipulated objects and are easier to deploy in physical environments. Bringing adversarial 3D textures to VLA systems is nevertheless nontrivial. A central obstacle is that standard 3D simulators do not provide a differentiable optimization path from the VLA objective function back to object appearance, making it difficult to optimize through an end-to-end manner. To address this, we introduce Foreground-Background Decoupling (FBD), which enables differentiable texture optimization through dual-renderer alignment while preserving the original simulation environment. To further ensure that the attack remains effective across long-horizon and diverse viewpoints in the physical world, we propose Trajectory-Aware Adversarial Optimization (TAAO), which prioritizes behaviorally critical frames and stabilizes optimization with a vertex-based parameterization. Built on these designs, we present Tex3D, the first framework for end-to-end optimization of 3D adversarial textures directly within the VLA simulation environment. Experiments in both simulation and real-robot settings show that Tex3D significantly degrades VLA performance across multiple manipulation tasks, achieving task failure rates of up to 96.7\%. Our empirical results expose critical vulnerabilities of VLA systems to physically grounded 3D adversarial attacks and highlight the need for robustness-aware training.