Aprendizaje de Enrutamiento por Niveles de Presupuesto Conscientes de la Consulta para Memoria de Agente en Tiempo de Ejecución

Resumen

La memoria es cada vez más central para los agentes de modelos de lenguaje grande (LLM) que operan más allá de una única ventana de contexto; sin embargo, la mayoría de los sistemas existentes dependen de una construcción de memoria fuera de línea e independiente de la consulta, que puede ser ineficiente y puede descartar información crítica para la consulta. Aunque la utilización de memoria en tiempo de ejecución es una alternativa natural, trabajos anteriores a menudo incurren en una sobrecarga sustancial y ofrecen un control explícito limitado sobre la compensación entre rendimiento y costo. En este trabajo, presentamos BudgetMem, un marco de memoria para agentes en tiempo de ejecución que permite un control explícito y consciente de la consulta sobre el rendimiento y el costo. BudgetMem estructura el procesamiento de la memoria como un conjunto de módulos de memoria, cada uno ofrecido en tres niveles de presupuesto (es decir, Bajo/Medio/Alto). Un enrutador ligero realiza el enrutamiento de niveles de presupuesto entre módulos para equilibrar el rendimiento de la tarea y el costo de construcción de la memoria, implementado como una política neuronal compacta entrenada con aprendizaje por refuerzo. Utilizando BudgetMem como banco de pruebas unificado, estudiamos tres estrategias complementarias para realizar los niveles de presupuesto: implementación (complejidad del método), razonamiento (comportamiento de inferencia) y capacidad (tamaño del modelo del módulo). En LoCoMo, LongMemEval y HotpotQA, BudgetMem supera a líneas de base sólidas cuando se prioriza el rendimiento (es decir, configuración de alto presupuesto) y ofrece mejores fronteras de precisión-costo bajo presupuestos más ajustados. Además, nuestro análisis desentraña las fortalezas y debilidades de las diferentes estrategias de niveles, aclarando cuándo cada eje ofrece las compensaciones más favorables bajo distintos regímenes de presupuesto.

English

Memory is increasingly central to Large Language Model (LLM) agents operating beyond a single context window, yet most existing systems rely on offline, query-agnostic memory construction that can be inefficient and may discard query-critical information. Although runtime memory utilization is a natural alternative, prior work often incurs substantial overhead and offers limited explicit control over the performance-cost trade-off. In this work, we present BudgetMem, a runtime agent memory framework for explicit, query-aware performance-cost control. BudgetMem structures memory processing as a set of memory modules, each offered in three budget tiers (i.e., Low/Mid/High). A lightweight router performs budget-tier routing across modules to balance task performance and memory construction cost, which is implemented as a compact neural policy trained with reinforcement learning. Using BudgetMem as a unified testbed, we study three complementary strategies for realizing budget tiers: implementation (method complexity), reasoning (inference behavior), and capacity (module model size). Across LoCoMo, LongMemEval, and HotpotQA, BudgetMem surpasses strong baselines when performance is prioritized (i.e., high-budget setting), and delivers better accuracy-cost frontiers under tighter budgets. Moreover, our analysis disentangles the strengths and weaknesses of different tiering strategies, clarifying when each axis delivers the most favorable trade-offs under varying budget regimes.

Aprendizaje de Enrutamiento por Niveles de Presupuesto Conscientes de la Consulta para Memoria de Agente en Tiempo de Ejecución

Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory

Resumen

Support