Apprentissage du Routage Budgétaire Conscient des Requêtes pour la Mémoire d'Agent en Temps Réel
Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory
February 5, 2026
papers.authors: Haozhen Zhang, Haodong Yue, Tao Feng, Quanyu Long, Jianzhu Bao, Bowen Jin, Weizhi Zhang, Xiao Li, Jiaxuan You, Chengwei Qin, Wenya Wang
cs.AI
papers.abstract
La mémoire devient de plus en plus centrale pour les agents de modèles de langage de grande taille (LLM) opérant au-delà d'une seule fenêtre de contexte. Cependant, la plupart des systèmes existants reposent sur une construction de mémoire hors-ligne et indépendante des requêtes, qui peut être inefficace et risque d'éliminer des informations cruciales pour la requête. Bien que l'utilisation de la mémoire à l'exécution soit une alternative naturelle, les travaux antérieurs entraînent souvent des surcharges substantielles et n'offrent qu'un contrôle explicite limité sur le compromis performance-coût. Dans ce travail, nous présentons BudgetMem, un cadre de mémoire d'agent à l'exécution permettant un contrôle explicite et conscient de la requête sur le compromis performance-coût. BudgetMem structure le traitement de la mémoire sous forme d'un ensemble de modules de mémoire, chacun proposé selon trois niveaux de budget (Faible/Moyen/Élevé). Un routeur léger effectue un routage des niveaux de budget entre les modules pour équilibrer la performance de la tâche et le coût de construction de la mémoire, ce qui est implémenté sous la forme d'une politique neuronale compacte entraînée par apprentissage par renforcement. En utilisant BudgetMem comme banc d'essai unifié, nous étudions trois stratégies complémentaires pour réaliser les niveaux de budget : l'implémentation (complexité de la méthode), le raisonnement (comportement de l'inférence) et la capacité (taille du modèle du module). Sur les benchmarks LoCoMo, LongMemEval et HotpotQA, BudgetMem surpasse les bases de référence solides lorsque la performance est prioritaire (c'est-à-dire en configuration à budget élevé), et offre de meilleures frontières précision-coût sous des budgets plus contraints. De plus, notre analyse démêle les forces et les faiblesses des différentes stratégies de niveaux, clarifiant dans quelles conditions chaque axe offre les compromis les plus favorables sous différents régimes budgétaires.
English
Memory is increasingly central to Large Language Model (LLM) agents operating beyond a single context window, yet most existing systems rely on offline, query-agnostic memory construction that can be inefficient and may discard query-critical information. Although runtime memory utilization is a natural alternative, prior work often incurs substantial overhead and offers limited explicit control over the performance-cost trade-off. In this work, we present BudgetMem, a runtime agent memory framework for explicit, query-aware performance-cost control. BudgetMem structures memory processing as a set of memory modules, each offered in three budget tiers (i.e., Low/Mid/High). A lightweight router performs budget-tier routing across modules to balance task performance and memory construction cost, which is implemented as a compact neural policy trained with reinforcement learning. Using BudgetMem as a unified testbed, we study three complementary strategies for realizing budget tiers: implementation (method complexity), reasoning (inference behavior), and capacity (module model size). Across LoCoMo, LongMemEval, and HotpotQA, BudgetMem surpasses strong baselines when performance is prioritized (i.e., high-budget setting), and delivers better accuracy-cost frontiers under tighter budgets. Moreover, our analysis disentangles the strengths and weaknesses of different tiering strategies, clarifying when each axis delivers the most favorable trade-offs under varying budget regimes.