ASTRA: AI 소프트웨어 어시스턴트를 위한 자율적 시공간 레드팀링
ASTRA: Autonomous Spatial-Temporal Red-teaming for AI Software Assistants
August 5, 2025
저자: Xiangzhe Xu, Guangyu Shen, Zian Su, Siyuan Cheng, Hanxi Guo, Lu Yan, Xuan Chen, Jiasheng Jiang, Xiaolong Jin, Chengpeng Wang, Zhuo Zhang, Xiangyu Zhang
cs.AI
초록
GitHub Copilot과 같은 AI 코딩 보조 도구들은 소프트웨어 개발을 빠르게 변화시키고 있지만, 특히 사이버보안과 같은 고위험 분야에서 그 안전성은 여전히 불확실하다. 현재의 레드팀 도구들은 고정된 벤치마크나 비현실적인 프롬프트에 의존하여 실제 세계의 취약점을 많이 놓치고 있다. 본 논문에서는 AI 기반 코드 생성 및 보안 지침 시스템의 안전성 결함을 체계적으로 발견하기 위해 설계된 자동화된 에이전트 시스템인 ASTRA를 제안한다. ASTRA는 세 단계로 작동한다: (1) 복잡한 소프트웨어 작업과 알려진 취약점을 모델링하는 구조화된 도메인 특화 지식 그래프를 구축한다; (2) 지식 그래프를 기반으로 각 대상 모델의 입력 공간(공간적 탐색)과 추론 과정(시간적 탐색)을 적응적으로 탐색하여 온라인 취약점 탐사를 수행한다; (3) 모델 정렬을 개선하기 위해 고품질의 위반 유발 사례를 생성한다. 기존 방법과 달리, ASTRA는 개발자가 실제로 요청할 수 있는 현실적인 입력에 초점을 맞추고, 오프라인 추상화 기반 도메인 모델링과 온라인 도메인 지식 그래프 적응을 활용하여 코너 케이스 취약점을 발견한다. 두 가지 주요 평가 도메인에서 ASTRA는 기존 기술보다 11-66% 더 많은 문제를 발견하고, 17% 더 효과적인 정렬 훈련을 이끄는 테스트 케이스를 생성하여 더 안전한 AI 시스템 구축을 위한 실용적 가치를 입증한다.
English
AI coding assistants like GitHub Copilot are rapidly transforming software
development, but their safety remains deeply uncertain-especially in
high-stakes domains like cybersecurity. Current red-teaming tools often rely on
fixed benchmarks or unrealistic prompts, missing many real-world
vulnerabilities. We present ASTRA, an automated agent system designed to
systematically uncover safety flaws in AI-driven code generation and security
guidance systems. ASTRA works in three stages: (1) it builds structured
domain-specific knowledge graphs that model complex software tasks and known
weaknesses; (2) it performs online vulnerability exploration of each target
model by adaptively probing both its input space, i.e., the spatial
exploration, and its reasoning processes, i.e., the temporal exploration,
guided by the knowledge graphs; and (3) it generates high-quality
violation-inducing cases to improve model alignment. Unlike prior methods,
ASTRA focuses on realistic inputs-requests that developers might actually
ask-and uses both offline abstraction guided domain modeling and online domain
knowledge graph adaptation to surface corner-case vulnerabilities. Across two
major evaluation domains, ASTRA finds 11-66% more issues than existing
techniques and produces test cases that lead to 17% more effective alignment
training, showing its practical value for building safer AI systems.