FlashRT: Op weg naar computationeel en geheugenefficiënte red-teaming voor promptinjectie en kenniscorruptie

Samenvatting

Lang-context grote taalmodellen (LLM's) - zoals Gemini-3.1-Pro en Qwen-3.5 - worden op grote schaal ingezet om tal van real-world toepassingen mogelijk te maken, zoals retrieval-augmented generation, autonome agents en AI-assistenten. Veiligheid blijft echter een groot aandachtspunt bij hun brede inzet, met bedreigingen zoals prompt injection en knowledge corruption. Om de beveiligingsrisico's voor LLM's onder deze dreigingen te kwantificeren, heeft de onderzoeksgemeenschap heuristische en op optimalisatie gebaseerde red-teaming-methoden ontwikkeld. Optimalisatiegebaseerde methoden produceren over het algemeen sterkere aanvallen dan heuristische aanvallen en bieden daardoor een strengere beoordeling van de LLM-beveiligingsrisico's. Ze zijn echter vaak resource-intensief, waarbij aanzienlijke rekenkracht en GPU-geheugen nodig is, vooral in lang-context scenario's. Dit resource-intensieve karakter vormt een grote belemmering voor de gemeenschap (met name academische onderzoekers) om de beveiligingsrisico's van lang-context LLM's systematisch te evalueren en de effectiviteit van verdedigingsstrategieën op grote schaal te beoordelen. In dit werk stellen we FlashRT voor, het eerste raamwerk om de efficiëntie (zowel qua rekenkracht als geheugen) te verbeteren voor optimalisatiegebaseerde prompt injection- en knowledge corruption-aanvallen onder lang-context LLM's. Uit uitgebreide evaluaties blijkt dat FlashRT consistent een 2x-7x versnelling biedt (bijvoorbeeld door de looptijd terug te brengen van een uur naar minder dan tien minuten) en een 2x-4x vermindering van het GPU-geheugengebruik (bijvoorbeeld een reductie van 264,1 GB naar 65,7 GB GPU-geheugen voor een context van 32K tokens) in vergelijking met de state-of-the-art baseline nanoGCG. FlashRT kan breed worden toegepast op black-box optimalisatiemethoden, zoals TAP en AutoDAN. We hopen dat FlashRT kan dienen als een red-teaming tool om systematische evaluatie van lang-context LLM-beveiliging mogelijk te maken. De code is beschikbaar op: https://github.com/Wang-Yanting/FlashRT

English

Long-context large language models (LLMs)-for example, Gemini-3.1-Pro and Qwen-3.5-are widely used to empower many real-world applications, such as retrieval-augmented generation, autonomous agents, and AI assistants. However, security remains a major concern for their widespread deployment, with threats such as prompt injection and knowledge corruption. To quantify the security risks faced by LLMs under these threats, the research community has developed heuristic-based and optimization-based red-teaming methods. Optimization-based methods generally produce stronger attacks than heuristic attacks and thus provide a more rigorous assessment of LLM security risks. However, they are often resource-intensive, requiring significant computation and GPU memory, especially for long context scenarios. The resource-intensive nature poses a major obstacle for the community (especially academic researchers) to systematically evaluate the security risks of long-context LLMs and assess the effectiveness of defense strategies at scale. In this work, we propose FlashRT, the first framework to improve the efficiency (in terms of both computation and memory) for optimization-based prompt injection and knowledge corruption attacks under long-context LLMs. Through extensive evaluations, we find that FlashRT consistently delivers a 2x-7x speedup (e.g., reducing runtime from one hour to less than ten minutes) and a 2x-4x reduction in GPU memory consumption (e.g., reducing from 264.1 GB to 65.7 GB GPU memory for a 32K token context) compared to state-of-the-art baseline nanoGCG. FlashRT can be broadly applied to black-box optimization methods, such as TAP and AutoDAN. We hope FlashRT can serve as a red-teaming tool to enable systematic evaluation of long-context LLM security. The code is available at: https://github.com/Wang-Yanting/FlashRT

FlashRT: Op weg naar computationeel en geheugenefficiënte red-teaming voor promptinjectie en kenniscorruptie

FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption

Samenvatting

Support