実行時エージェントメモリのためのクエリ対応予算階層ルーティングの学習
Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory
February 5, 2026
著者: Haozhen Zhang, Haodong Yue, Tao Feng, Quanyu Long, Jianzhu Bao, Bowen Jin, Weizhi Zhang, Xiao Li, Jiaxuan You, Chengwei Qin, Wenya Wang
cs.AI
要旨
大規模言語モデル(LLM)エージェントが単一のコンテキストウィンドウを超えて動作する際、メモリの重要性が高まっている。しかし、既存のシステムの多くはオフラインかつクエリ非依存のメモリ構築に依存しており、非効率であったり、クエリにとって重要な情報を見落としたりする可能性がある。ランタイムでのメモリ利用は自然な代替手段であるが、従来の研究では多大なオーバーヘッドが生じ、性能とコストのトレードオフに対する明示的な制御が限定的であった。本研究では、明示的かつクエリを考慮した性能コスト制御のためのランタイムエージェントメモリフレームワークであるBudgetMemを提案する。BudgetMemはメモリ処理を一連のメモリモジュールとして構造化し、各モジュールは3つの予算階層(低/中/高)で提供される。軽量なルーターがモジュール間で予算階層のルーティングを行い、タスク性能とメモリ構築コストのバランスを取る。このルーティングは、強化学習で訓練されたコンパクトなニューラルポリシーとして実装される。BudgetMemを統一的なテストベッドとして用い、予算階層を実現する3つの相補的な戦略(実装手法の複雑さ、推論動作、モジュールモデルサイズ)を検討する。LoCoMo、LongMemEval、HotpotQAにおける実験では、性能を優先する場合(高予算設定)に強力なベースラインを上回り、より厳しい予算条件下でも優れた精度とコストのトレードオフを実現した。さらに、分析を通じて異なる階層化戦略の長所と短所を明らかにし、様々な予算体制において各軸が最も好ましいトレードオフをもたらす条件を明確にする。
English
Memory is increasingly central to Large Language Model (LLM) agents operating beyond a single context window, yet most existing systems rely on offline, query-agnostic memory construction that can be inefficient and may discard query-critical information. Although runtime memory utilization is a natural alternative, prior work often incurs substantial overhead and offers limited explicit control over the performance-cost trade-off. In this work, we present BudgetMem, a runtime agent memory framework for explicit, query-aware performance-cost control. BudgetMem structures memory processing as a set of memory modules, each offered in three budget tiers (i.e., Low/Mid/High). A lightweight router performs budget-tier routing across modules to balance task performance and memory construction cost, which is implemented as a compact neural policy trained with reinforcement learning. Using BudgetMem as a unified testbed, we study three complementary strategies for realizing budget tiers: implementation (method complexity), reasoning (inference behavior), and capacity (module model size). Across LoCoMo, LongMemEval, and HotpotQA, BudgetMem surpasses strong baselines when performance is prioritized (i.e., high-budget setting), and delivers better accuracy-cost frontiers under tighter budgets. Moreover, our analysis disentangles the strengths and weaknesses of different tiering strategies, clarifying when each axis delivers the most favorable trade-offs under varying budget regimes.