Leren van Querybewuste Budget-Tier Routering voor Runtime Agentgeheugen
Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory
February 5, 2026
Auteurs: Haozhen Zhang, Haodong Yue, Tao Feng, Quanyu Long, Jianzhu Bao, Bowen Jin, Weizhi Zhang, Xiao Li, Jiaxuan You, Chengwei Qin, Wenya Wang
cs.AI
Samenvatting
Geheugen wordt steeds centraler voor Large Language Model (LLM)-agenten die opereren buiten een enkele contextvenster, maar de meeste bestaande systemen vertrouwen op offline, query-ongevoelige geheugenconstructie die inefficiënt kan zijn en query-kritieke informatie kan wegwerpen. Hoewel runtime-geheugenbenutting een natuurlijk alternatief is, brengt eerder werk vaak aanzienlijke overhead met zich mee en biedt het beperkte expliciete controle over de prestatie-kostenafweging. In dit werk presenteren we BudgetMem, een runtime agentgeheugenraamwerk voor expliciete, query-bewuste prestatie-kostencontrole. BudgetMem structureert geheugenverwerking als een reeks geheugenmodules, elk aangeboden in drie budgetniveaus (d.w.z. Laag/Midden/Hoog). Een lichtgewicht router voert budgetniveau-routering uit over modules om taakprestaties en geheugenconstructiekosten in evenwicht te brengen, wat wordt geïmplementeerd als een compact neuraal beleid getraind met reinforcement learning. Door BudgetMem te gebruiken als een uniforme testomgeving, bestuderen we drie complementaire strategieën voor het realiseren van budgetniveaus: implementatie (methodecomplexiteit), redeneren (inferentiegedrag) en capaciteit (modulemodelgrootte). Op LoCoMo, LongMemEval en HotpotQA overtreft BudgetMem sterke baseline-methoden wanneer prestaties prioriteit krijgen (d.w.z. hoog-budget instelling), en levert het betere nauwkeurigheid-kostenfronten onder strengere budgetten. Bovendien ontrafelt onze analyse de sterke en zwakke punten van verschillende stratificatiestrategieën, en verduidelijkt wanneer elke as de meest gunstige afwegingen oplevert onder variërende budgetregimes.
English
Memory is increasingly central to Large Language Model (LLM) agents operating beyond a single context window, yet most existing systems rely on offline, query-agnostic memory construction that can be inefficient and may discard query-critical information. Although runtime memory utilization is a natural alternative, prior work often incurs substantial overhead and offers limited explicit control over the performance-cost trade-off. In this work, we present BudgetMem, a runtime agent memory framework for explicit, query-aware performance-cost control. BudgetMem structures memory processing as a set of memory modules, each offered in three budget tiers (i.e., Low/Mid/High). A lightweight router performs budget-tier routing across modules to balance task performance and memory construction cost, which is implemented as a compact neural policy trained with reinforcement learning. Using BudgetMem as a unified testbed, we study three complementary strategies for realizing budget tiers: implementation (method complexity), reasoning (inference behavior), and capacity (module model size). Across LoCoMo, LongMemEval, and HotpotQA, BudgetMem surpasses strong baselines when performance is prioritized (i.e., high-budget setting), and delivers better accuracy-cost frontiers under tighter budgets. Moreover, our analysis disentangles the strengths and weaknesses of different tiering strategies, clarifying when each axis delivers the most favorable trade-offs under varying budget regimes.