ASTRA: Autonoom Ruimtelijk-Temporeel Red-teaming voor AI Softwareassistenten
ASTRA: Autonomous Spatial-Temporal Red-teaming for AI Software Assistants
August 5, 2025
Auteurs: Xiangzhe Xu, Guangyu Shen, Zian Su, Siyuan Cheng, Hanxi Guo, Lu Yan, Xuan Chen, Jiasheng Jiang, Xiaolong Jin, Chengpeng Wang, Zhuo Zhang, Xiangyu Zhang
cs.AI
Samenvatting
AI-codeerassistenten zoals GitHub Copilot transformeren softwareontwikkeling in rap tempo, maar hun veiligheid blijft zeer onzeker, vooral in hoogrisicodomeinen zoals cybersecurity. Huidige red-teamingtools vertrouwen vaak op vaste benchmarks of onrealistische prompts, waardoor veel real-world kwetsbaarheden over het hoofd worden gezien. Wij presenteren ASTRA, een geautomatiseerd agentsysteem dat is ontworpen om systematisch veiligheidsfouten in AI-gestuurde codegeneratie en beveiligingsadviesystemen bloot te leggen. ASTRA werkt in drie fasen: (1) het bouwt gestructureerde domeinspecifieke kennisgrafieken die complexe softwaretaken en bekende zwakheden modelleren; (2) het voert online kwetsbaarheidsverkenning uit van elk doelmodel door adaptief zowel de invoerruimte, d.w.z. de ruimtelijke verkenning, als de redeneerprocessen, d.w.z. de temporele verkenning, te onderzoeken, geleid door de kennisgrafieken; en (3) het genereert hoogwaardige gevallen die overtredingen veroorzaken om de modelafstemming te verbeteren. In tegenstelling tot eerdere methoden richt ASTRA zich op realistische invoer—verzoeken die ontwikkelaars daadwerkelijk zouden kunnen stellen—en gebruikt zowel offline abstractie-geleide domeinmodellering als online aanpassing van domeinkennisgrafieken om hoekgevalkwetsbaarheden aan het licht te brengen. In twee grote evaluatiedomeinen vindt ASTRA 11-66% meer problemen dan bestaande technieken en produceert het testgevallen die leiden tot 17% effectievere afstemmingstraining, wat het praktische nut ervan aantoont voor het bouwen van veiligere AI-systemen.
English
AI coding assistants like GitHub Copilot are rapidly transforming software
development, but their safety remains deeply uncertain-especially in
high-stakes domains like cybersecurity. Current red-teaming tools often rely on
fixed benchmarks or unrealistic prompts, missing many real-world
vulnerabilities. We present ASTRA, an automated agent system designed to
systematically uncover safety flaws in AI-driven code generation and security
guidance systems. ASTRA works in three stages: (1) it builds structured
domain-specific knowledge graphs that model complex software tasks and known
weaknesses; (2) it performs online vulnerability exploration of each target
model by adaptively probing both its input space, i.e., the spatial
exploration, and its reasoning processes, i.e., the temporal exploration,
guided by the knowledge graphs; and (3) it generates high-quality
violation-inducing cases to improve model alignment. Unlike prior methods,
ASTRA focuses on realistic inputs-requests that developers might actually
ask-and uses both offline abstraction guided domain modeling and online domain
knowledge graph adaptation to surface corner-case vulnerabilities. Across two
major evaluation domains, ASTRA finds 11-66% more issues than existing
techniques and produces test cases that lead to 17% more effective alignment
training, showing its practical value for building safer AI systems.