ASTRA: Autonomes Räumlich-Zeitliches Red-Teaming für KI-Softwareassistenten

papers.abstract

KI-Codierungsassistenten wie GitHub Copilot revolutionieren die Softwareentwicklung rapide, doch ihre Sicherheit bleibt höchst ungewiss – insbesondere in risikoreichen Bereichen wie der Cybersicherheit. Aktuelle Red-Teaming-Tools verlassen sich oft auf feste Benchmarks oder unrealistische Eingabeaufforderungen, wodurch viele reale Schwachstellen übersehen werden. Wir stellen ASTRA vor, ein automatisiertes Agentensystem, das entwickelt wurde, um systematisch Sicherheitslücken in KI-gestützten Codegenerierungs- und Sicherheitsberatungssystemen aufzudecken. ASTRA arbeitet in drei Phasen: (1) Es erstellt strukturierte, domänenspezifische Wissensgraphen, die komplexe Softwareaufgaben und bekannte Schwachstellen modellieren; (2) Es führt eine Online-Schwachstellenexploration für jedes Zielmodell durch, indem es sowohl den Eingaberaum, d.h. die räumliche Exploration, als auch die Denkprozesse, d.h. die zeitliche Exploration, adaptiv untersucht, geleitet durch die Wissensgraphen; und (3) Es generiert hochwertige, verletzungsinduzierende Fälle, um die Modellausrichtung zu verbessern. Im Gegensatz zu früheren Methoden konzentriert sich ASTRA auf realistische Eingaben – Anfragen, die Entwickler tatsächlich stellen könnten – und nutzt sowohl offline abstraktionsgestützte Domänenmodellierung als auch online Wissensgraphenanpassung, um Randfall-Schwachstellen aufzudecken. In zwei großen Evaluierungsdomänen findet ASTRA 11–66 % mehr Probleme als bestehende Techniken und erzeugt Testfälle, die zu 17 % effektiverer Ausrichtungstraining führen, was seinen praktischen Wert für den Aufbau sichererer KI-Systeme unterstreicht.

English

AI coding assistants like GitHub Copilot are rapidly transforming software development, but their safety remains deeply uncertain-especially in high-stakes domains like cybersecurity. Current red-teaming tools often rely on fixed benchmarks or unrealistic prompts, missing many real-world vulnerabilities. We present ASTRA, an automated agent system designed to systematically uncover safety flaws in AI-driven code generation and security guidance systems. ASTRA works in three stages: (1) it builds structured domain-specific knowledge graphs that model complex software tasks and known weaknesses; (2) it performs online vulnerability exploration of each target model by adaptively probing both its input space, i.e., the spatial exploration, and its reasoning processes, i.e., the temporal exploration, guided by the knowledge graphs; and (3) it generates high-quality violation-inducing cases to improve model alignment. Unlike prior methods, ASTRA focuses on realistic inputs-requests that developers might actually ask-and uses both offline abstraction guided domain modeling and online domain knowledge graph adaptation to surface corner-case vulnerabilities. Across two major evaluation domains, ASTRA finds 11-66% more issues than existing techniques and produces test cases that lead to 17% more effective alignment training, showing its practical value for building safer AI systems.

ASTRA: Autonomes Räumlich-Zeitliches Red-Teaming für KI-Softwareassistenten

ASTRA: Autonomous Spatial-Temporal Red-teaming for AI Software Assistants

papers.abstract

Support