ASTRA: Evaluación Autónoma Espacio-Temporal de Asistentes de Software de Inteligencia Artificial
ASTRA: Autonomous Spatial-Temporal Red-teaming for AI Software Assistants
August 5, 2025
Autores: Xiangzhe Xu, Guangyu Shen, Zian Su, Siyuan Cheng, Hanxi Guo, Lu Yan, Xuan Chen, Jiasheng Jiang, Xiaolong Jin, Chengpeng Wang, Zhuo Zhang, Xiangyu Zhang
cs.AI
Resumen
Los asistentes de codificación basados en IA, como GitHub Copilot, están transformando rápidamente el desarrollo de software, pero su seguridad sigue siendo profundamente incierta, especialmente en dominios de alto riesgo como la ciberseguridad. Las herramientas actuales de red-teaming a menudo dependen de puntos de referencia fijos o indicaciones poco realistas, pasando por alto muchas vulnerabilidades del mundo real. Presentamos ASTRA, un sistema de agentes automatizado diseñado para descubrir sistemáticamente fallos de seguridad en la generación de código impulsada por IA y en los sistemas de orientación de seguridad. ASTRA funciona en tres etapas: (1) construye grafos de conocimiento específicos del dominio que modelan tareas complejas de software y debilidades conocidas; (2) realiza una exploración en línea de vulnerabilidades de cada modelo objetivo mediante el sondeo adaptativo tanto de su espacio de entrada, es decir, la exploración espacial, como de sus procesos de razonamiento, es decir, la exploración temporal, guiado por los grafos de conocimiento; y (3) genera casos de alta calidad que inducen violaciones para mejorar la alineación del modelo. A diferencia de métodos anteriores, ASTRA se centra en entradas realistas—solicitudes que los desarrolladores podrían realmente hacer—y utiliza tanto el modelado de dominio guiado por abstracción fuera de línea como la adaptación en línea del grafo de conocimiento del dominio para revelar vulnerabilidades en casos extremos. En dos dominios principales de evaluación, ASTRA encuentra entre un 11 % y un 66 % más de problemas que las técnicas existentes y produce casos de prueba que conducen a un 17 % más de efectividad en el entrenamiento de alineación, demostrando su valor práctico para construir sistemas de IA más seguros.
English
AI coding assistants like GitHub Copilot are rapidly transforming software
development, but their safety remains deeply uncertain-especially in
high-stakes domains like cybersecurity. Current red-teaming tools often rely on
fixed benchmarks or unrealistic prompts, missing many real-world
vulnerabilities. We present ASTRA, an automated agent system designed to
systematically uncover safety flaws in AI-driven code generation and security
guidance systems. ASTRA works in three stages: (1) it builds structured
domain-specific knowledge graphs that model complex software tasks and known
weaknesses; (2) it performs online vulnerability exploration of each target
model by adaptively probing both its input space, i.e., the spatial
exploration, and its reasoning processes, i.e., the temporal exploration,
guided by the knowledge graphs; and (3) it generates high-quality
violation-inducing cases to improve model alignment. Unlike prior methods,
ASTRA focuses on realistic inputs-requests that developers might actually
ask-and uses both offline abstraction guided domain modeling and online domain
knowledge graph adaptation to surface corner-case vulnerabilities. Across two
major evaluation domains, ASTRA finds 11-66% more issues than existing
techniques and produces test cases that lead to 17% more effective alignment
training, showing its practical value for building safer AI systems.