FlashRT: Verso un Red-Teaming Computazionalmente e Memoria-Efficiente per l'Injection di Prompt e la Corruzione della Conoscenza

Abstract

I modelli linguistici di grandi dimensioni a contesto lungo (LLM), come Gemini-3.1-Pro e Qwen-3.5, sono ampiamente utilizzati per potenziare molte applicazioni del mondo reale, come la generazione aumentata dal recupero di informazioni, gli agenti autonomi e gli assistenti IA. Tuttavia, la sicurezza rimane una preoccupazione principale per il loro ampio dispiegamento, con minacce come l'iniezione di prompt e la corruzione della conoscenza. Per quantificare i rischi per la sicurezza affrontati dagli LLM sotto queste minacce, la comunità di ricerca ha sviluppato metodi di red-teaming basati su euristiche e su ottimizzazione. I metodi basati sull'ottimizzazione generalmente producono attacchi più potenti di quelli euristici e forniscono quindi una valutazione più rigorosa dei rischi per la sicurezza degli LLM. Tuttavia, sono spesso ad alto consumo di risorse, richiedendo una potenza di calcolo e una memoria GPU significative, specialmente per scenari a contesto lungo. La natura ad alta intensità di risorse rappresenta un ostacolo importante per la comunità (specialmente per i ricercatori accademici) per valutare sistematicamente i rischi per la sicurezza degli LLM a contesto lungo e valutare l'efficacia delle strategie di difesa su larga scala. In questo lavoro, proponiamo FlashRT, il primo framework per migliorare l'efficienza (in termini sia di calcolo che di memoria) per attacchi di iniezione di prompt e corruzione della conoscenza basati sull'ottimizzazione sotto LLM a contesto lungo. Attraverso valutazioni estese, abbiamo riscontrato che FlashRT fornisce costantemente un aumento di velocità da 2x a 7x (ad esempio, riducendo il tempo di esecuzione da un'ora a meno di dieci minuti) e una riduzione del consumo di memoria GPU da 2x a 4x (ad esempio, riducendo da 264,1 GB a 65,7 GB di memoria GPU per un contesto di 32K token) rispetto allo stato dell'arte del baseline nanoGCG. FlashRT può essere applicato ampiamente a metodi di ottimizzazione black-box, come TAP e AutoDAN. Speriamo che FlashRT possa servire come strumento di red-teaming per consentire la valutazione sistematica della sicurezza degli LLM a contesto lungo. Il codice è disponibile all'indirizzo: https://github.com/Wang-Yanting/FlashRT

English

Long-context large language models (LLMs)-for example, Gemini-3.1-Pro and Qwen-3.5-are widely used to empower many real-world applications, such as retrieval-augmented generation, autonomous agents, and AI assistants. However, security remains a major concern for their widespread deployment, with threats such as prompt injection and knowledge corruption. To quantify the security risks faced by LLMs under these threats, the research community has developed heuristic-based and optimization-based red-teaming methods. Optimization-based methods generally produce stronger attacks than heuristic attacks and thus provide a more rigorous assessment of LLM security risks. However, they are often resource-intensive, requiring significant computation and GPU memory, especially for long context scenarios. The resource-intensive nature poses a major obstacle for the community (especially academic researchers) to systematically evaluate the security risks of long-context LLMs and assess the effectiveness of defense strategies at scale. In this work, we propose FlashRT, the first framework to improve the efficiency (in terms of both computation and memory) for optimization-based prompt injection and knowledge corruption attacks under long-context LLMs. Through extensive evaluations, we find that FlashRT consistently delivers a 2x-7x speedup (e.g., reducing runtime from one hour to less than ten minutes) and a 2x-4x reduction in GPU memory consumption (e.g., reducing from 264.1 GB to 65.7 GB GPU memory for a 32K token context) compared to state-of-the-art baseline nanoGCG. FlashRT can be broadly applied to black-box optimization methods, such as TAP and AutoDAN. We hope FlashRT can serve as a red-teaming tool to enable systematic evaluation of long-context LLM security. The code is available at: https://github.com/Wang-Yanting/FlashRT

FlashRT: Verso un Red-Teaming Computazionalmente e Memoria-Efficiente per l'Injection di Prompt e la Corruzione della Conoscenza

FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption

Abstract

Support