FlashRT: в сторону вычислительно и энергетически эффективного редутиминга для инъекций в промпты и коррупции знаний

Аннотация

Модели большого контекста (LLM), такие как Gemini-3.1-Pro и Qwen-3.5, широко используются для поддержки различных прикладных систем, включая генерацию с расширением выборки, автономные агенты и ИИ-ассистенты. Однако безопасность остается ключевой проблемой при их развертывании, учитывая угрозы вроде инъекции промптов и коррупции знаний. Для количественной оценки рисков безопасности LLM исследовательское сообщество разработало методы тестирования на проникновение на основе эвристик и оптимизации. Методы на основе оптимизации обычно создают более мощные атаки, чем эвристические, обеспечивая более строгую оценку рисков. Однако они требуют значительных вычислительных ресурсов и памяти GPU, особенно для сценариев с длинным контекстом. Эта ресурсоемкость создает серьезное препятствие для систематической оценки безопасности LLM большого контекста и проверки эффективности защитных стратегий. В данной работе мы представляем FlashRT — первую框架, повышающую эффективность (по вычислениям и памяти) оптимизационных атак инъекции промптов и коррупции знаний для LLM большого контекста. Эксперименты показывают, что FlashRT обеспечивает ускорение в 2-7 раз (например, сокращение времени выполнения с часа до менее 10 минут) и снижение потребления памяти GPU в 2-4 раза (например, с 264.1 ГБ до 65.7 ГБ для контекста в 32К токенов) по сравнению с передовым базовым методом nanoGCG. FlashRT применим к черно-боксовым оптимизационным методам, таким как TAP и AutoDAN. Мы надеемся, что FlashRT станет инструментом тестирования для систематической оценки безопасности LLM большого контекста. Код доступен по адресу: https://github.com/Wang-Yanting/FlashRT

English

Long-context large language models (LLMs)-for example, Gemini-3.1-Pro and Qwen-3.5-are widely used to empower many real-world applications, such as retrieval-augmented generation, autonomous agents, and AI assistants. However, security remains a major concern for their widespread deployment, with threats such as prompt injection and knowledge corruption. To quantify the security risks faced by LLMs under these threats, the research community has developed heuristic-based and optimization-based red-teaming methods. Optimization-based methods generally produce stronger attacks than heuristic attacks and thus provide a more rigorous assessment of LLM security risks. However, they are often resource-intensive, requiring significant computation and GPU memory, especially for long context scenarios. The resource-intensive nature poses a major obstacle for the community (especially academic researchers) to systematically evaluate the security risks of long-context LLMs and assess the effectiveness of defense strategies at scale. In this work, we propose FlashRT, the first framework to improve the efficiency (in terms of both computation and memory) for optimization-based prompt injection and knowledge corruption attacks under long-context LLMs. Through extensive evaluations, we find that FlashRT consistently delivers a 2x-7x speedup (e.g., reducing runtime from one hour to less than ten minutes) and a 2x-4x reduction in GPU memory consumption (e.g., reducing from 264.1 GB to 65.7 GB GPU memory for a 32K token context) compared to state-of-the-art baseline nanoGCG. FlashRT can be broadly applied to black-box optimization methods, such as TAP and AutoDAN. We hope FlashRT can serve as a red-teaming tool to enable systematic evaluation of long-context LLM security. The code is available at: https://github.com/Wang-Yanting/FlashRT

FlashRT: в сторону вычислительно и энергетически эффективного редутиминга для инъекций в промпты и коррупции знаний

FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption

Аннотация

Support