LRAgent: Compartición Eficiente de Caché KV para Agentes LLM Multi-LoRA

Resumen

La especialización de roles en sistemas de agentes multi-LLM a menudo se realiza mediante multi-LoRA, donde los agentes comparten un modelo base preentrenado y difieren únicamente a través de adaptadores ligeros. A pesar de compartir los pesos del modelo base, cada agente construye y almacena de forma independiente su propia caché KV para las mismas trayectorias largas aumentadas con herramientas, lo que genera una sobrecarga sustancial de memoria y cálculo. Los métodos existentes para compartir la caché KV pasan en gran medida por alto este entorno multi-LoRA. Observamos que, entre agentes, las diferencias en la caché están dominadas por las salidas del adaptador, mientras que las activaciones del modelo base preentrenado compartido permanecen altamente similares. Basándonos en esta observación, proponemos LRAgent, un marco para compartir caché KV para agentes multi-LoRA que descompone la caché en un componente base compartido de los pesos preentrenados y un componente dependiente del adaptador de los pesos LoRA. LRAgent reduce la sobrecarga de memoria compartiendo el componente base y almacenando el componente del adaptador en su forma inherente de bajo rango, y reduce aún más la sobrecarga computacional, habilitada por arquitecturas multi-LoRA de A-compartida, al compartir también la caché de bajo rango y evitar cálculos redundantes para contextos ya procesados por otros agentes. Para reconstruir eficientemente las contribuciones del adaptador en tiempo de ejecución, presentamos Flash-LoRA-Attention, un núcleo que reordena el cálculo de atención para evitar materializar la caché de bajo rango a su dimensión completa. LRAgent logra un rendimiento y una latencia del primer token cercanos al almacenamiento en caché totalmente compartido, al mismo tiempo que preserva una precisión cercana a la línea base de almacenamiento en caché no compartido en diversos puntos de referencia de preguntas y respuestas agenticas.

English

Role specialization in multi-LLM agent systems is often realized via multi-LoRA, where agents share a pretrained backbone and differ only through lightweight adapters. Despite sharing base model weights, each agent independently builds and stores its own KV cache for the same long, tool-augmented trajectories, incurring substantial memory and compute overhead. Existing KV cache sharing methods largely overlook this multi-LoRA setting. We observe that, across agents, cache differences are dominated by adapter outputs, while activations from the shared pretrained backbone remain highly similar. Based on this observation, we propose LRAgent, a KV cache sharing framework for multi-LoRA agents that decomposes the cache into a shared base component from the pretrained weights and an adapter-dependent component from LoRA weights. LRAgent reduces memory overhead by sharing the base component and storing the adapter component in its inherent low-rank form, and further reduces compute overhead, enabled by shared-A multi-LoRA architectures, by also sharing the low-rank cache and avoiding redundant computations for contexts already processed by other agents. To efficiently reconstruct adapter contributions at runtime, we introduce Flash-LoRA-Attention, a kernel that reorders attention computation to avoid materializing the low-rank cache to full dimension. LRAgent achieves throughput and time-to-first-token latency close to fully shared caching, while preserving accuracy near the non-shared caching baseline across agentic question-answering benchmarks.

LRAgent: Compartición Eficiente de Caché KV para Agentes LLM Multi-LoRA

LRAgent: Efficient KV Cache Sharing for Multi-LoRA LLM Agents

Resumen

Support