FlashRT : Vers un test d'intrusion computationnellement et mémoriellement efficace pour l'injection d'invites et la corruption des connaissances

Résumé

Les grands modèles de langage à contexte étendu (LLM) - par exemple Gemini-3.1-Pro et Qwen-3.5 - sont largement utilisés pour alimenter de nombreuses applications réelles, telles que la génération augmentée par retrieval, les agents autonomes et les assistants IA. Cependant, la sécurité reste une préoccupation majeure pour leur déploiement à grande échelle, avec des menaces telles que l'injection de prompt et la corruption des connaissances. Pour quantifier les risques de sécurité auxquels sont confrontés les LLM face à ces menaces, la communauté scientifique a développé des méthodes de red teaming basées sur l'heuristique et sur l'optimisation. Les méthodes basées sur l'optimisation produisent généralement des attaques plus puissantes que les attaques heuristiques et offrent donc une évaluation plus rigoureuse des risques de sécurité des LLM. Cependant, elles sont souvent gourmandes en ressources, nécessitant des calculs importants et une mémoire GPU considérable, en particulier dans les scénarios à contexte long. Cette nature intensive en ressources constitue un obstacle majeur pour la communauté (en particulier les chercheurs académiques) afin d'évaluer systématiquement les risques de sécurité des LLM à contexte long et de tester l'efficacité des stratégies de défense à grande échelle. Dans ce travail, nous proposons FlashRT, le premier cadre visant à améliorer l'efficacité (en termes de calcul et de mémoire) pour les attaques par injection de prompt et corruption des connaissances basées sur l'optimisation sous les LLM à contexte long. Grâce à des évaluations approfondies, nous constatons que FlashRT offre systématiquement une accélération de 2x à 7x (par exemple, en réduit le temps d'exécution d'une heure à moins de dix minutes) et une réduction de 2x à 4x de la consommation de mémoire GPU (par exemple, en réduisant de 264,1 Go à 65,7 Go de mémoire GPU pour un contexte de 32K tokens) par rapport à la référence state-of-the-art nanoGCG. FlashRT peut être largement appliqué aux méthodes d'optimisation en boîte noire, telles que TAP et AutoDAN. Nous espérons que FlashRT pourra servir d'outil de red teaming pour permettre une évaluation systématique de la sécurité des LLM à contexte long. Le code est disponible à l'adresse : https://github.com/Wang-Yanting/FlashRT

English

Long-context large language models (LLMs)-for example, Gemini-3.1-Pro and Qwen-3.5-are widely used to empower many real-world applications, such as retrieval-augmented generation, autonomous agents, and AI assistants. However, security remains a major concern for their widespread deployment, with threats such as prompt injection and knowledge corruption. To quantify the security risks faced by LLMs under these threats, the research community has developed heuristic-based and optimization-based red-teaming methods. Optimization-based methods generally produce stronger attacks than heuristic attacks and thus provide a more rigorous assessment of LLM security risks. However, they are often resource-intensive, requiring significant computation and GPU memory, especially for long context scenarios. The resource-intensive nature poses a major obstacle for the community (especially academic researchers) to systematically evaluate the security risks of long-context LLMs and assess the effectiveness of defense strategies at scale. In this work, we propose FlashRT, the first framework to improve the efficiency (in terms of both computation and memory) for optimization-based prompt injection and knowledge corruption attacks under long-context LLMs. Through extensive evaluations, we find that FlashRT consistently delivers a 2x-7x speedup (e.g., reducing runtime from one hour to less than ten minutes) and a 2x-4x reduction in GPU memory consumption (e.g., reducing from 264.1 GB to 65.7 GB GPU memory for a 32K token context) compared to state-of-the-art baseline nanoGCG. FlashRT can be broadly applied to black-box optimization methods, such as TAP and AutoDAN. We hope FlashRT can serve as a red-teaming tool to enable systematic evaluation of long-context LLM security. The code is available at: https://github.com/Wang-Yanting/FlashRT

FlashRT : Vers un test d'intrusion computationnellement et mémoriellement efficace pour l'injection d'invites et la corruption des connaissances

FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption

Résumé

Support