FlashRT: Hacia una Prueba de Penetración Computacional y Eficiente en Memoria para la Inyección de Prompts y la Corrupción de Conocimiento

Resumen

Los modelos de lenguaje de gran contexto (LLMs), como Gemini-3.1-Pro y Qwen-3.5, se utilizan ampliamente para potenciar muchas aplicaciones del mundo real, como la generación aumentada por recuperación, agentes autónomos y asistentes de IA. Sin embargo, la seguridad sigue siendo una preocupación importante para su despliegue generalizado, con amenazas como la inyección de prompts y la corrupción de conocimiento. Para cuantificar los riesgos de seguridad a los que se enfrentan los LLMs bajo estas amenazas, la comunidad investigadora ha desarrollado métodos de red teaming basados en heurísticas y en optimización. Los métodos basados en optimización generalmente producen ataques más potentes que los ataques heurísticos y, por lo tanto, proporcionan una evaluación más rigurosa de los riesgos de seguridad de los LLMs. Sin embargo, suelen ser intensivos en recursos, requiriendo un cómputo y una memoria de GPU significativos, especialmente para escenarios de contexto largo. Esta naturaleza intensiva en recursos supone un gran obstáculo para que la comunidad (especialmente los investigadores académicos) evalúe sistemáticamente los riesgos de seguridad de los LLMs de contexto largo y valore la efectividad de las estrategias de defensa a gran escala. En este trabajo, proponemos FlashRT, el primer marco para mejorar la eficiencia (tanto en cómputo como en memoria) de los ataques de inyección de prompts y corrupción de conocimiento basados en optimización bajo LLMs de contexto largo. Mediante evaluaciones exhaustivas, encontramos que FlashRT ofrece consistentemente una aceleración de 2x a 7x (por ejemplo, reduciendo el tiempo de ejecución de una hora a menos de diez minutos) y una reducción de 2x a 4x en el consumo de memoria de GPU (por ejemplo, reduciendo de 264.1 GB a 65.7 GB de memoria GPU para un contexto de 32K tokens) en comparación con el estado del arte del baseline nanoGCG. FlashRT puede aplicarse ampliamente a métodos de optimización de caja negra, como TAP y AutoDAN. Esperamos que FlashRT pueda servir como una herramienta de red teaming para permitir la evaluación sistemática de la seguridad de los LLMs de contexto largo. El código está disponible en: https://github.com/Wang-Yanting/FlashRT

English

Long-context large language models (LLMs)-for example, Gemini-3.1-Pro and Qwen-3.5-are widely used to empower many real-world applications, such as retrieval-augmented generation, autonomous agents, and AI assistants. However, security remains a major concern for their widespread deployment, with threats such as prompt injection and knowledge corruption. To quantify the security risks faced by LLMs under these threats, the research community has developed heuristic-based and optimization-based red-teaming methods. Optimization-based methods generally produce stronger attacks than heuristic attacks and thus provide a more rigorous assessment of LLM security risks. However, they are often resource-intensive, requiring significant computation and GPU memory, especially for long context scenarios. The resource-intensive nature poses a major obstacle for the community (especially academic researchers) to systematically evaluate the security risks of long-context LLMs and assess the effectiveness of defense strategies at scale. In this work, we propose FlashRT, the first framework to improve the efficiency (in terms of both computation and memory) for optimization-based prompt injection and knowledge corruption attacks under long-context LLMs. Through extensive evaluations, we find that FlashRT consistently delivers a 2x-7x speedup (e.g., reducing runtime from one hour to less than ten minutes) and a 2x-4x reduction in GPU memory consumption (e.g., reducing from 264.1 GB to 65.7 GB GPU memory for a 32K token context) compared to state-of-the-art baseline nanoGCG. FlashRT can be broadly applied to black-box optimization methods, such as TAP and AutoDAN. We hope FlashRT can serve as a red-teaming tool to enable systematic evaluation of long-context LLM security. The code is available at: https://github.com/Wang-Yanting/FlashRT

FlashRT: Hacia una Prueba de Penetración Computacional y Eficiente en Memoria para la Inyección de Prompts y la Corrupción de Conocimiento

FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption

Resumen

Support