FlashRT: Rumo a uma Avaliação de Segurança Computacionalmente e em Memória Eficiente para Injeção de Prompt e Corrupção de Conhecimento

Resumo

Os modelos de linguagem de grande porte (LLMs) de contexto longo — por exemplo, Gemini-3.1-Pro e Qwen-3.5 — são amplamente utilizados para capacitar muitas aplicações do mundo real, como geração aumentada por recuperação, agentes autônomos e assistentes de IA. No entanto, a segurança continua sendo uma grande preocupação para sua implantação generalizada, com ameaças como injeção de prompt e corrupção de conhecimento. Para quantificar os riscos de segurança enfrentados pelos LLMs sob essas ameaças, a comunidade de pesquisa desenvolveu métodos de red teaming baseados em heurística e em otimização. Os métodos baseados em otimização geralmente produzem ataques mais fortes do que os ataques heurísticos e, portanto, fornecem uma avaliação mais rigorosa dos riscos de segurança dos LLMs. No entanto, eles são frequentemente intensivos em recursos, exigindo computação e memória de GPU significativas, especialmente para cenários de contexto longo. A natureza intensiva em recursos representa um grande obstáculo para a comunidade (especialmente pesquisadores acadêmicos) avaliar sistematicamente os riscos de segurança dos LLMs de contexto longo e a eficácia das estratégias de defesa em larga escala. Neste trabalho, propomos o FlashRT, o primeiro framework para melhorar a eficiência (em termos de computação e memória) para ataques de injeção de prompt e corrupção de conhecimento baseados em otimização sob LLMs de contexto longo. Por meio de avaliações extensivas, descobrimos que o FlashRT consistentemente oferece uma aceleração de 2x a 7x (por exemplo, reduzindo o tempo de execução de uma hora para menos de dez minutos) e uma redução de 2x a 4x no consumo de memória da GPU (por exemplo, reduzindo de 264,1 GB para 65,7 GB de memória GPU para um contexto de 32K tokens) em comparação com a baseline state-of-the-art nanoGCG. O FlashRT pode ser aplicado amplamente a métodos de otimização de caixa preta, como TAP e AutoDAN. Esperamos que o FlashRT possa servir como uma ferramenta de red teaming para permitir a avaliação sistemática da segurança de LLMs de contexto longo. O código está disponível em: https://github.com/Wang-Yanting/FlashRT

English

Long-context large language models (LLMs)-for example, Gemini-3.1-Pro and Qwen-3.5-are widely used to empower many real-world applications, such as retrieval-augmented generation, autonomous agents, and AI assistants. However, security remains a major concern for their widespread deployment, with threats such as prompt injection and knowledge corruption. To quantify the security risks faced by LLMs under these threats, the research community has developed heuristic-based and optimization-based red-teaming methods. Optimization-based methods generally produce stronger attacks than heuristic attacks and thus provide a more rigorous assessment of LLM security risks. However, they are often resource-intensive, requiring significant computation and GPU memory, especially for long context scenarios. The resource-intensive nature poses a major obstacle for the community (especially academic researchers) to systematically evaluate the security risks of long-context LLMs and assess the effectiveness of defense strategies at scale. In this work, we propose FlashRT, the first framework to improve the efficiency (in terms of both computation and memory) for optimization-based prompt injection and knowledge corruption attacks under long-context LLMs. Through extensive evaluations, we find that FlashRT consistently delivers a 2x-7x speedup (e.g., reducing runtime from one hour to less than ten minutes) and a 2x-4x reduction in GPU memory consumption (e.g., reducing from 264.1 GB to 65.7 GB GPU memory for a 32K token context) compared to state-of-the-art baseline nanoGCG. FlashRT can be broadly applied to black-box optimization methods, such as TAP and AutoDAN. We hope FlashRT can serve as a red-teaming tool to enable systematic evaluation of long-context LLM security. The code is available at: https://github.com/Wang-Yanting/FlashRT

FlashRT: Rumo a uma Avaliação de Segurança Computacionalmente e em Memória Eficiente para Injeção de Prompt e Corrupção de Conhecimento

FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption

Resumo

Support