Aprendizado de Roteamento Orçamentário Consciente de Consultas para Memória de Agente em Tempo de Execução
Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory
February 5, 2026
Autores: Haozhen Zhang, Haodong Yue, Tao Feng, Quanyu Long, Jianzhu Bao, Bowen Jin, Weizhi Zhang, Xiao Li, Jiaxuan You, Chengwei Qin, Wenya Wang
cs.AI
Resumo
A memória é cada vez mais central para agentes de modelos de linguagem de grande escala (LLM) que operam além de uma única janela de contexto, mas a maioria dos sistemas existentes depende de uma construção de memória offline e independente de consulta, que pode ser ineficiente e pode descartar informações críticas para a consulta. Embora a utilização de memória em tempo de execução seja uma alternativa natural, trabalhos anteriores frequentemente incorrem em sobrecarga substancial e oferecem controle explícito limitado sobre o compromisso entre desempenho e custo. Neste trabalho, apresentamos o BudgetMem, uma estrutura de memória para agentes em tempo de execução que permite um controle explícito e consciente da consulta sobre o desempenho e o custo. O BudgetMem estrutura o processamento da memória como um conjunto de módulos de memória, cada um oferecido em três níveis de orçamento (ou seja, Baixo/Médio/Alto). Um roteador leve executa o roteamento de níveis de orçamento entre os módulos para equilibrar o desempenho da tarefa e o custo de construção da memória, sendo implementado como uma política neural compacta treinada com aprendizado por reforço. Usando o BudgetMem como uma plataforma de teste unificada, estudamos três estratégias complementares para realizar os níveis de orçamento: implementação (complexidade do método), raciocínio (comportamento de inferência) e capacidade (tamanho do modelo do módulo). Nos conjuntos de dados LoCoMo, LongMemEval e HotpotQA, o BudgetMem supera bases de comparação fortes quando o desempenho é priorizado (ou seja, configuração de alto orçamento) e oferece melhores fronteiras de precisão-custo sob orçamentos mais restritos. Além disso, nossa análise desmistifica os pontos fortes e fracos das diferentes estratégias de hierarquização, esclarecendo quando cada eixo oferece os compromissos mais favoráveis sob diferentes regimes de orçamento.
English
Memory is increasingly central to Large Language Model (LLM) agents operating beyond a single context window, yet most existing systems rely on offline, query-agnostic memory construction that can be inefficient and may discard query-critical information. Although runtime memory utilization is a natural alternative, prior work often incurs substantial overhead and offers limited explicit control over the performance-cost trade-off. In this work, we present BudgetMem, a runtime agent memory framework for explicit, query-aware performance-cost control. BudgetMem structures memory processing as a set of memory modules, each offered in three budget tiers (i.e., Low/Mid/High). A lightweight router performs budget-tier routing across modules to balance task performance and memory construction cost, which is implemented as a compact neural policy trained with reinforcement learning. Using BudgetMem as a unified testbed, we study three complementary strategies for realizing budget tiers: implementation (method complexity), reasoning (inference behavior), and capacity (module model size). Across LoCoMo, LongMemEval, and HotpotQA, BudgetMem surpasses strong baselines when performance is prioritized (i.e., high-budget setting), and delivers better accuracy-cost frontiers under tighter budgets. Moreover, our analysis disentangles the strengths and weaknesses of different tiering strategies, clarifying when each axis delivers the most favorable trade-offs under varying budget regimes.