LRAgent: マルチLoRA LLMエージェントのための効率的なKVキャッシュ共有
LRAgent: Efficient KV Cache Sharing for Multi-LoRA LLM Agents
February 1, 2026
著者: Hyesung Jeon, Hyeongju Ha, Jae-Joon Kim
cs.AI
要旨
マルチLLMエージェントシステムにおける役割分担は、多くの場合マルチLoRAによって実現される。この場合、エージェントは事前学習済みのバックボーンを共有し、軽量なアダプタのみが異なる。基本モデルの重みを共有しているにもかかわらず、各エージェントは同じ長いツール拡張軌跡に対して、それぞれ独立してKVキャッシュを構築・保存するため、メモリと計算の両方で多大なオーバーヘッドが生じる。既存のKVキャッシュ共有手法は、このマルチLoRA設定をほとんど考慮していない。我々は、エージェント間で、キャッシュの差異が主にアダプタの出力によって支配され、共有された事前学習済みバックボーンからの活性化は非常に類似したままであることを観察した。この観察に基づき、我々はLRAgentを提案する。これは、キャッシュを事前学習済み重みに由来する共有基底成分と、LoRA重みに由来するアダプタ依存成分に分解する、マルチLoRAエージェントのためのKVキャッシュ共有フレームワークである。LRAgentは、基底成分を共有し、アダプタ成分をその本質的な低ランク形式で保存することでメモリオーバーヘッドを削減する。さらに、共有-AマルチLoRAアーキテクチャによって可能となる計算オーバーヘッドも、低ランクキャッシュを共有し、他のエージェントによって既に処理されたコンテキストに対する冗長な計算を回避することで削減する。実行時にアダプタの寄与を効率的に再構築するため、我々はFlash-LoRA-Attentionを導入する。これは、低ランクキャッシュをフル次元に具現化することを避けるために注意計算の順序を変更するカーネルである。LRAgentは、エージェント型質問応答ベンチマークにおいて、非共有キャッシュベースラインに近い精度を保ちつつ、完全共有キャッシングに迫るスループットとTime-to-First-Tokenレイテンシを達成する。
English
Role specialization in multi-LLM agent systems is often realized via multi-LoRA, where agents share a pretrained backbone and differ only through lightweight adapters. Despite sharing base model weights, each agent independently builds and stores its own KV cache for the same long, tool-augmented trajectories, incurring substantial memory and compute overhead. Existing KV cache sharing methods largely overlook this multi-LoRA setting. We observe that, across agents, cache differences are dominated by adapter outputs, while activations from the shared pretrained backbone remain highly similar. Based on this observation, we propose LRAgent, a KV cache sharing framework for multi-LoRA agents that decomposes the cache into a shared base component from the pretrained weights and an adapter-dependent component from LoRA weights. LRAgent reduces memory overhead by sharing the base component and storing the adapter component in its inherent low-rank form, and further reduces compute overhead, enabled by shared-A multi-LoRA architectures, by also sharing the low-rank cache and avoiding redundant computations for contexts already processed by other agents. To efficiently reconstruct adapter contributions at runtime, we introduce Flash-LoRA-Attention, a kernel that reorders attention computation to avoid materializing the low-rank cache to full dimension. LRAgent achieves throughput and time-to-first-token latency close to fully shared caching, while preserving accuracy near the non-shared caching baseline across agentic question-answering benchmarks.