FlashRT: Auf dem Weg zu rechen- und speichereffizientem Red-Teaming für Prompt-Injection und Wissenskorruption

Zusammenfassung

Großsprachmodelle mit langem Kontext (LLMs) – beispielsweise Gemini-3.1-Pro und Qwen-3.5 – werden häufig eingesetzt, um viele praxisrelevante Anwendungen zu ermöglichen, wie retrieval-augmented Generation, autonome Agenten und KI-Assistenten. Die Sicherheit bleibt jedoch ein Hauptproblem für deren breite Nutzung, mit Bedrohungen wie Prompt-Injection und Wissenskorruption. Um die Sicherheitsrisiken von LLMs unter diesen Bedrohungen zu quantifizieren, hat die Forschungsgemeinschaft heuristische und optimierungsbasierte Red-Teaming-Methoden entwickelt. Optimierungsbasierte Methoden erzeugen im Allgemeinen stärkere Angriffe als heuristische Angriffe und bieten somit eine strengere Bewertung der LLM-Sicherheitsrisiken. Allerdings sind sie oft ressourcenintensiv und erfordern erhebliche Rechenleistung und GPU-Speicher, insbesondere in Langkontext-Szenarien. Dieser ressourcenintensive Charakter stellt ein großes Hindernis für die Gemeinschaft (insbesondere für akademische Forscher) dar, um die Sicherheitsrisiken von Langkontext-LLMs systematisch zu bewerten und die Wirksamkeit von Verteidigungsstrategien in großem Maßstab zu beurteilen. In dieser Arbeit schlagen wir FlashRT vor, den ersten Framework zur Verbesserung der Effizienz (sowohl in Bezug auf Rechenleistung als auch Speicher) für optimierungsbasierte Prompt-Injection- und Wissenskorruptionsangriffe unter Langkontext-LLMs. Durch umfangreiche Evaluationen stellen wir fest, dass FlashRT durchgängig eine 2x- bis 7x-Beschleunigung (z.B. Reduzierung der Laufzeit von einer Stunde auf weniger als zehn Minuten) und eine 2x- bis 4x-Reduzierung des GPU-Speicherverbrauchs (z.B. Reduzierung von 264,1 GB auf 65,7 GB GPU-Speicher für einen 32K-Token-Kontext) im Vergleich zum state-of-the-art Baseline nanoGCG liefert. FlashRT kann breit auf Blackbox-Optimierungsmethoden wie TAP und AutoDAN angewendet werden. Wir hoffen, dass FlashRT als Red-Teaming-Tool dienen kann, um eine systematische Bewertung der Sicherheit von Langkontext-LLMs zu ermöglichen. Der Code ist verfügbar unter: https://github.com/Wang-Yanting/FlashRT

English

Long-context large language models (LLMs)-for example, Gemini-3.1-Pro and Qwen-3.5-are widely used to empower many real-world applications, such as retrieval-augmented generation, autonomous agents, and AI assistants. However, security remains a major concern for their widespread deployment, with threats such as prompt injection and knowledge corruption. To quantify the security risks faced by LLMs under these threats, the research community has developed heuristic-based and optimization-based red-teaming methods. Optimization-based methods generally produce stronger attacks than heuristic attacks and thus provide a more rigorous assessment of LLM security risks. However, they are often resource-intensive, requiring significant computation and GPU memory, especially for long context scenarios. The resource-intensive nature poses a major obstacle for the community (especially academic researchers) to systematically evaluate the security risks of long-context LLMs and assess the effectiveness of defense strategies at scale. In this work, we propose FlashRT, the first framework to improve the efficiency (in terms of both computation and memory) for optimization-based prompt injection and knowledge corruption attacks under long-context LLMs. Through extensive evaluations, we find that FlashRT consistently delivers a 2x-7x speedup (e.g., reducing runtime from one hour to less than ten minutes) and a 2x-4x reduction in GPU memory consumption (e.g., reducing from 264.1 GB to 65.7 GB GPU memory for a 32K token context) compared to state-of-the-art baseline nanoGCG. FlashRT can be broadly applied to black-box optimization methods, such as TAP and AutoDAN. We hope FlashRT can serve as a red-teaming tool to enable systematic evaluation of long-context LLM security. The code is available at: https://github.com/Wang-Yanting/FlashRT

FlashRT: Auf dem Weg zu rechen- und speichereffizientem Red-Teaming für Prompt-Injection und Wissenskorruption

FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption

Zusammenfassung

Support