ASTRA: Red-teaming Autonomo Spazio-Temporale per Assistanti Software basati su IA
ASTRA: Autonomous Spatial-Temporal Red-teaming for AI Software Assistants
August 5, 2025
Autori: Xiangzhe Xu, Guangyu Shen, Zian Su, Siyuan Cheng, Hanxi Guo, Lu Yan, Xuan Chen, Jiasheng Jiang, Xiaolong Jin, Chengpeng Wang, Zhuo Zhang, Xiangyu Zhang
cs.AI
Abstract
Gli assistenti di codifica basati su AI come GitHub Copilot stanno trasformando rapidamente lo sviluppo software, ma la loro sicurezza rimane profondamente incerta, specialmente in domini ad alto rischio come la cybersecurity. Gli attuali strumenti di red-teaming spesso si basano su benchmark fissi o prompt irrealistici, tralasciando molte vulnerabilità del mondo reale. Presentiamo ASTRA, un sistema di agenti automatizzato progettato per scoprire sistematicamente difetti di sicurezza nei sistemi di generazione di codice e di guida alla sicurezza basati su AI. ASTRA opera in tre fasi: (1) costruisce grafi di conoscenza strutturati specifici per il dominio che modellano compiti software complessi e debolezze note; (2) esegue un'esplorazione online delle vulnerabilità di ciascun modello target sondando in modo adattivo sia lo spazio di input, ovvero l'esplorazione spaziale, sia i processi di ragionamento, ovvero l'esplorazione temporale, guidato dai grafi di conoscenza; e (3) genera casi di alta qualità che inducono violazioni per migliorare l'allineamento del modello. A differenza dei metodi precedenti, ASTRA si concentra su input realistici—richieste che gli sviluppatori potrebbero effettivamente fare—e utilizza sia la modellazione del dominio guidata da astrazioni offline che l'adattamento online del grafo di conoscenza del dominio per far emergere vulnerabilità di casi limite. In due principali domini di valutazione, ASTRA individua dall'11% al 66% in più di problemi rispetto alle tecniche esistenti e produce casi di test che portano a un addestramento di allineamento più efficace del 17%, dimostrando il suo valore pratico per costruire sistemi AI più sicuri.
English
AI coding assistants like GitHub Copilot are rapidly transforming software
development, but their safety remains deeply uncertain-especially in
high-stakes domains like cybersecurity. Current red-teaming tools often rely on
fixed benchmarks or unrealistic prompts, missing many real-world
vulnerabilities. We present ASTRA, an automated agent system designed to
systematically uncover safety flaws in AI-driven code generation and security
guidance systems. ASTRA works in three stages: (1) it builds structured
domain-specific knowledge graphs that model complex software tasks and known
weaknesses; (2) it performs online vulnerability exploration of each target
model by adaptively probing both its input space, i.e., the spatial
exploration, and its reasoning processes, i.e., the temporal exploration,
guided by the knowledge graphs; and (3) it generates high-quality
violation-inducing cases to improve model alignment. Unlike prior methods,
ASTRA focuses on realistic inputs-requests that developers might actually
ask-and uses both offline abstraction guided domain modeling and online domain
knowledge graph adaptation to surface corner-case vulnerabilities. Across two
major evaluation domains, ASTRA finds 11-66% more issues than existing
techniques and produces test cases that lead to 17% more effective alignment
training, showing its practical value for building safer AI systems.