ChatPaper.aiChatPaper

Lernen einer abfragebewussten Budget-Stufen-Routing-Strategie für Laufzeit-Agentenspeicher

Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory

February 5, 2026
papers.authors: Haozhen Zhang, Haodong Yue, Tao Feng, Quanyu Long, Jianzhu Bao, Bowen Jin, Weizhi Zhang, Xiao Li, Jiaxuan You, Chengwei Qin, Wenya Wang
cs.AI

papers.abstract

Speicher wird für Agenten auf Basis großer Sprachmodelle (LLM), die über ein einzelnes Kontextfenster hinaus operieren, zunehmend zentral, doch die meisten bestehenden Systeme verlassen sich auf offline, abfrageunabhängige Speicherkonstruktion, die ineffizient sein und abfragekritische Informationen verwerfen kann. Obwohl die Laufzeit-Speichernutzung eine naheliegende Alternative darstellt, verursachen frühere Ansätze oft erheblichen Overhead und bieten nur begrenzte explizite Kontrolle über den Leistungs-Kosten-Kompromiss. In dieser Arbeit stellen wir BudgetMem vor, ein Laufzeit-Agentenspeicherframework für explizite, abfragebewusste Leistungs-Kosten-Steuerung. BudgetMem strukturiert die Speicherverarbeitung als eine Reihe von Speichermodulen, die jeweils in drei Budgetstufen (d.h. Niedrig/Mittel/Hoch) angeboten werden. Ein leichtgewichtiger Router führt eine Budgetstufen-Routing über Module hinweg durch, um Aufgabenleistung und Speicherkonstruktionskosten abzuwägen. Dies wird als kompakte neuronale Policy implementiert, die mit bestärkendem Lernen trainiert wird. Unter Verwendung von BudgetMem als einheitlicher Testplattform untersuchen wir drei komplementäre Strategien zur Realisierung von Budgetstufen: Implementierung (Methodenkomplexität), Reasoning (Inferenzverhalten) und Kapazität (Modellgröße des Moduls). Auf LoCoMo, LongMemEval und HotpotQA übertrifft BudgetMem starke Baseline-Methoden, wenn die Leistung priorisiert wird (d.h. im Hochbudget-Betrieb), und liefert bessere Genauigkeits-Kosten-Grenzen unter strengeren Budgets. Darüber hinaus entwirrt unsere Analyse die Stärken und Schwächen verschiedener Stufenstrategien und klärt auf, wann jede Achse unter variierenden Budgetregimen die günstigsten Kompromisse liefert.
English
Memory is increasingly central to Large Language Model (LLM) agents operating beyond a single context window, yet most existing systems rely on offline, query-agnostic memory construction that can be inefficient and may discard query-critical information. Although runtime memory utilization is a natural alternative, prior work often incurs substantial overhead and offers limited explicit control over the performance-cost trade-off. In this work, we present BudgetMem, a runtime agent memory framework for explicit, query-aware performance-cost control. BudgetMem structures memory processing as a set of memory modules, each offered in three budget tiers (i.e., Low/Mid/High). A lightweight router performs budget-tier routing across modules to balance task performance and memory construction cost, which is implemented as a compact neural policy trained with reinforcement learning. Using BudgetMem as a unified testbed, we study three complementary strategies for realizing budget tiers: implementation (method complexity), reasoning (inference behavior), and capacity (module model size). Across LoCoMo, LongMemEval, and HotpotQA, BudgetMem surpasses strong baselines when performance is prioritized (i.e., high-budget setting), and delivers better accuracy-cost frontiers under tighter budgets. Moreover, our analysis disentangles the strengths and weaknesses of different tiering strategies, clarifying when each axis delivers the most favorable trade-offs under varying budget regimes.
PDF273February 11, 2026