ASTRA: Автономное пространственно-временное тестирование на уязвимости для программных ассистентов с искусственным интеллектом

Аннотация

ИИ-ассистенты для написания кода, такие как GitHub Copilot, стремительно меняют процесс разработки программного обеспечения, но их безопасность остается крайне неопределенной, особенно в высокорисковых областях, таких как кибербезопасность. Современные инструменты для тестирования на уязвимости часто полагаются на фиксированные бенчмарки или нереалистичные запросы, упуская множество реальных уязвимостей. Мы представляем ASTRA, автоматизированную систему, предназначенную для систематического выявления недостатков безопасности в системах генерации кода и предоставления рекомендаций по безопасности на основе ИИ. ASTRA работает в три этапа: (1) строит структурированные предметно-ориентированные графы знаний, моделирующие сложные задачи разработки и известные уязвимости; (2) проводит онлайн-исследование уязвимостей каждой целевой модели, адаптивно исследуя как пространство входных данных (пространственное исследование), так и процессы рассуждения (временное исследование), руководствуясь графами знаний; и (3) генерирует высококачественные тестовые случаи, вызывающие нарушения, для улучшения согласованности модели. В отличие от предыдущих методов, ASTRA фокусируется на реалистичных запросах — тех, которые разработчики могут действительно задавать — и использует как оффлайн-моделирование предметной области с помощью абстракций, так и онлайн-адаптацию графов знаний для выявления уязвимостей в крайних случаях. В двух основных областях оценки ASTRA обнаруживает на 11–66% больше проблем, чем существующие методы, и создает тестовые случаи, которые приводят к повышению эффективности обучения согласованности на 17%, демонстрируя свою практическую ценность для создания более безопасных систем ИИ.

English

AI coding assistants like GitHub Copilot are rapidly transforming software development, but their safety remains deeply uncertain-especially in high-stakes domains like cybersecurity. Current red-teaming tools often rely on fixed benchmarks or unrealistic prompts, missing many real-world vulnerabilities. We present ASTRA, an automated agent system designed to systematically uncover safety flaws in AI-driven code generation and security guidance systems. ASTRA works in three stages: (1) it builds structured domain-specific knowledge graphs that model complex software tasks and known weaknesses; (2) it performs online vulnerability exploration of each target model by adaptively probing both its input space, i.e., the spatial exploration, and its reasoning processes, i.e., the temporal exploration, guided by the knowledge graphs; and (3) it generates high-quality violation-inducing cases to improve model alignment. Unlike prior methods, ASTRA focuses on realistic inputs-requests that developers might actually ask-and uses both offline abstraction guided domain modeling and online domain knowledge graph adaptation to surface corner-case vulnerabilities. Across two major evaluation domains, ASTRA finds 11-66% more issues than existing techniques and produces test cases that lead to 17% more effective alignment training, showing its practical value for building safer AI systems.

ASTRA: Автономное пространственно-временное тестирование на уязвимости для программных ассистентов с искусственным интеллектом

ASTRA: Autonomous Spatial-Temporal Red-teaming for AI Software Assistants

Аннотация

Support