ASTRA : Test d’intrusion autonome spatio-temporel pour les assistants logiciels d’intelligence artificielle
ASTRA: Autonomous Spatial-Temporal Red-teaming for AI Software Assistants
August 5, 2025
papers.authors: Xiangzhe Xu, Guangyu Shen, Zian Su, Siyuan Cheng, Hanxi Guo, Lu Yan, Xuan Chen, Jiasheng Jiang, Xiaolong Jin, Chengpeng Wang, Zhuo Zhang, Xiangyu Zhang
cs.AI
papers.abstract
Les assistants de codage basés sur l'IA, comme GitHub Copilot, transforment rapidement le développement logiciel, mais leur sécurité reste profondément incertaine, en particulier dans des domaines à haut risque comme la cybersécurité. Les outils actuels de red teaming reposent souvent sur des benchmarks fixes ou des prompts irréalistes, manquant ainsi de nombreuses vulnérabilités réelles. Nous présentons ASTRA, un système d'agents automatisé conçu pour découvrir systématiquement les failles de sécurité dans les systèmes de génération de code et de conseils en sécurité pilotés par l'IA. ASTRA fonctionne en trois étapes : (1) il construit des graphes de connaissances structurés spécifiques au domaine, modélisant des tâches logicielles complexes et des faiblesses connues ; (2) il explore en ligne les vulnérabilités de chaque modèle cible en sondant de manière adaptative à la fois son espace d'entrée, c'est-à-dire l'exploration spatiale, et ses processus de raisonnement, c'est-à-dire l'exploration temporelle, guidé par les graphes de connaissances ; et (3) il génère des cas de haute qualité induisant des violations pour améliorer l'alignement du modèle. Contrairement aux méthodes précédentes, ASTRA se concentre sur des entrées réalistes—des requêtes que les développeurs pourraient réellement poser—et utilise à la fois une modélisation de domaine guidée par abstraction hors ligne et une adaptation en ligne des graphes de connaissances pour révéler des vulnérabilités de cas limites. Dans deux domaines d'évaluation majeurs, ASTRA identifie 11 à 66 % de problèmes supplémentaires par rapport aux techniques existantes et produit des cas de test qui conduisent à un entraînement d'alignement 17 % plus efficace, démontrant ainsi sa valeur pratique pour la construction de systèmes d'IA plus sûrs.
English
AI coding assistants like GitHub Copilot are rapidly transforming software
development, but their safety remains deeply uncertain-especially in
high-stakes domains like cybersecurity. Current red-teaming tools often rely on
fixed benchmarks or unrealistic prompts, missing many real-world
vulnerabilities. We present ASTRA, an automated agent system designed to
systematically uncover safety flaws in AI-driven code generation and security
guidance systems. ASTRA works in three stages: (1) it builds structured
domain-specific knowledge graphs that model complex software tasks and known
weaknesses; (2) it performs online vulnerability exploration of each target
model by adaptively probing both its input space, i.e., the spatial
exploration, and its reasoning processes, i.e., the temporal exploration,
guided by the knowledge graphs; and (3) it generates high-quality
violation-inducing cases to improve model alignment. Unlike prior methods,
ASTRA focuses on realistic inputs-requests that developers might actually
ask-and uses both offline abstraction guided domain modeling and online domain
knowledge graph adaptation to surface corner-case vulnerabilities. Across two
major evaluation domains, ASTRA finds 11-66% more issues than existing
techniques and produces test cases that lead to 17% more effective alignment
training, showing its practical value for building safer AI systems.