LRAgent: Compartilhamento Eficiente de Cache KV para Agentes de LLM Multi-LoRA

Resumo

A especialização de funções em sistemas de agentes multi-LLM é frequentemente realizada via multi-LoRA, onde os agentes compartilham uma estrutura pré-treinada e diferem apenas através de adaptadores leves. Apesar de compartilharem os pesos do modelo base, cada agente constrói e armazena independentemente seu próprio cache KV para as mesmas trajetórias longas e aumentadas por ferramentas, incorrendo em sobrecarga substancial de memória e computação. Os métodos existentes de compartilhamento de cache KV ignoram amplamente este cenário multi-LoRA. Observamos que, entre os agentes, as diferenças de cache são dominadas pelas saídas dos adaptadores, enquanto as ativações da estrutura pré-treinada compartilhada permanecem altamente similares. Com base nesta observação, propomos LRAgent, uma estrutura de compartilhamento de cache KV para agentes multi-LoRA que decompõe o cache em um componente base compartilhado (dos pesos pré-treinados) e um componente dependente do adaptador (dos pesos LoRA). O LRAgent reduz a sobrecarga de memória compartilhando o componente base e armazenando o componente do adaptador em sua forma inerentemente de baixo posto, e reduz ainda mais a sobrecarga computacional, possibilitada por arquiteturas multi-LoRA de A compartilhado, também compartilhando o cache de baixo posto e evitando computações redundantes para contextos já processados por outros agentes. Para reconstruir eficientemente as contribuições do adaptador em tempo de execução, introduzimos Flash-LoRA-Attention, um kernel que reordena o cálculo de atenção para evitar materializar o cache de baixo posto em dimensão completa. O LRAgent alcança throughput e latência do primeiro token próximos aos do cache totalmente compartilhado, enquanto preserva precisão próxima da linha de base de cache não compartilhado em benchmarks de questionamento agentico.

English

Role specialization in multi-LLM agent systems is often realized via multi-LoRA, where agents share a pretrained backbone and differ only through lightweight adapters. Despite sharing base model weights, each agent independently builds and stores its own KV cache for the same long, tool-augmented trajectories, incurring substantial memory and compute overhead. Existing KV cache sharing methods largely overlook this multi-LoRA setting. We observe that, across agents, cache differences are dominated by adapter outputs, while activations from the shared pretrained backbone remain highly similar. Based on this observation, we propose LRAgent, a KV cache sharing framework for multi-LoRA agents that decomposes the cache into a shared base component from the pretrained weights and an adapter-dependent component from LoRA weights. LRAgent reduces memory overhead by sharing the base component and storing the adapter component in its inherent low-rank form, and further reduces compute overhead, enabled by shared-A multi-LoRA architectures, by also sharing the low-rank cache and avoiding redundant computations for contexts already processed by other agents. To efficiently reconstruct adapter contributions at runtime, we introduce Flash-LoRA-Attention, a kernel that reorders attention computation to avoid materializing the low-rank cache to full dimension. LRAgent achieves throughput and time-to-first-token latency close to fully shared caching, while preserving accuracy near the non-shared caching baseline across agentic question-answering benchmarks.

LRAgent: Compartilhamento Eficiente de Cache KV para Agentes de LLM Multi-LoRA

LRAgent: Efficient KV Cache Sharing for Multi-LoRA LLM Agents

Resumo

Support