ASTRA: Teste Autônomo Espaço-Temporal de Red Team para Assistentes de Software de IA
ASTRA: Autonomous Spatial-Temporal Red-teaming for AI Software Assistants
August 5, 2025
Autores: Xiangzhe Xu, Guangyu Shen, Zian Su, Siyuan Cheng, Hanxi Guo, Lu Yan, Xuan Chen, Jiasheng Jiang, Xiaolong Jin, Chengpeng Wang, Zhuo Zhang, Xiangyu Zhang
cs.AI
Resumo
Assistentes de codificação baseados em IA, como o GitHub Copilot, estão transformando rapidamente o desenvolvimento de software, mas sua segurança permanece profundamente incerta, especialmente em domínios de alto risco, como a cibersegurança. As ferramentas atuais de red teaming frequentemente dependem de benchmarks fixos ou prompts irreais, deixando passar muitas vulnerabilidades do mundo real. Apresentamos o ASTRA, um sistema de agente automatizado projetado para descobrir sistematicamente falhas de segurança em sistemas de geração de código e orientação de segurança impulsionados por IA. O ASTRA opera em três etapas: (1) constrói grafos de conhecimento estruturados e específicos do domínio que modelam tarefas complexas de software e vulnerabilidades conhecidas; (2) realiza uma exploração online de vulnerabilidades de cada modelo alvo, sondando adaptativamente tanto seu espaço de entrada, ou seja, a exploração espacial, quanto seus processos de raciocínio, ou seja, a exploração temporal, guiado pelos grafos de conhecimento; e (3) gera casos de alta qualidade que induzem violações para melhorar o alinhamento do modelo. Diferente de métodos anteriores, o ASTRA foca em entradas realistas—solicitações que desenvolvedores realmente poderiam fazer—e usa tanto a modelagem de domínio guiada por abstração offline quanto a adaptação online do grafo de conhecimento do domínio para revelar vulnerabilidades em casos extremos. Em dois grandes domínios de avaliação, o ASTRA encontra 11-66% mais problemas do que as técnicas existentes e produz casos de teste que resultam em um treinamento de alinhamento 17% mais eficaz, demonstrando seu valor prático para a construção de sistemas de IA mais seguros.
English
AI coding assistants like GitHub Copilot are rapidly transforming software
development, but their safety remains deeply uncertain-especially in
high-stakes domains like cybersecurity. Current red-teaming tools often rely on
fixed benchmarks or unrealistic prompts, missing many real-world
vulnerabilities. We present ASTRA, an automated agent system designed to
systematically uncover safety flaws in AI-driven code generation and security
guidance systems. ASTRA works in three stages: (1) it builds structured
domain-specific knowledge graphs that model complex software tasks and known
weaknesses; (2) it performs online vulnerability exploration of each target
model by adaptively probing both its input space, i.e., the spatial
exploration, and its reasoning processes, i.e., the temporal exploration,
guided by the knowledge graphs; and (3) it generates high-quality
violation-inducing cases to improve model alignment. Unlike prior methods,
ASTRA focuses on realistic inputs-requests that developers might actually
ask-and uses both offline abstraction guided domain modeling and online domain
knowledge graph adaptation to surface corner-case vulnerabilities. Across two
major evaluation domains, ASTRA finds 11-66% more issues than existing
techniques and produces test cases that lead to 17% more effective alignment
training, showing its practical value for building safer AI systems.