Apprendimento del Routing a Budget-Tier Consapevole delle Query per la Memoria degli Agenti in Tempo Reale

Abstract

La memoria sta diventando sempre più centrale per gli agenti basati su Large Language Model (LLM) che operano oltre una singola finestra contestuale, eppure la maggior parte dei sistemi esistenti si affida a una costruzione della memoria offline e indipendente dalla query, che può essere inefficiente e rischia di scartare informazioni critiche per la query. Sebbene l'utilizzo della memoria in runtime rappresenti un'alternativa naturale, i lavori precedenti spesso comportano un sovraccarico sostanziale e offrono un controllo limitato ed esplicito sul compromesso prestazioni-costo. In questo lavoro, presentiamo BudgetMem, un framework di memoria runtime per agenti che consente un controllo esplicito e consapevole della query sul compromesso prestazioni-costo. BudgetMem struttura l'elaborazione della memoria come un insieme di moduli di memoria, ciascuno offerto in tre livelli di budget (Basso/Medio/Alto). Un router leggero esegue l'instradamento del livello di budget tra i moduli per bilanciare le prestazioni del task e il costo di costruzione della memoria, implementato come una politica neurale compatta addestrata con apprendimento per rinforzo. Utilizzando BudgetMem come piattaforma di test unificata, studiamo tre strategie complementari per realizzare i livelli di budget: implementazione (complessità del metodo), ragionamento (comportamento inferenziale) e capacità (dimensione del modello del modulo). Sui dataset LoCoMo, LongMemEval e HotpotQA, BudgetMem supera baseline solide quando la priorità sono le prestazioni (impostazione di budget alto) e fornisce frontiere di accuratezza-costo migliori con budget più ristretti. Inoltre, la nostra analisi distingue i punti di forza e di debolezza delle diverse strategie di suddivisione in livelli, chiarendo quando ciascun asse offre i compromessi più favorevoli in diversi regimi di budget.

English

Memory is increasingly central to Large Language Model (LLM) agents operating beyond a single context window, yet most existing systems rely on offline, query-agnostic memory construction that can be inefficient and may discard query-critical information. Although runtime memory utilization is a natural alternative, prior work often incurs substantial overhead and offers limited explicit control over the performance-cost trade-off. In this work, we present BudgetMem, a runtime agent memory framework for explicit, query-aware performance-cost control. BudgetMem structures memory processing as a set of memory modules, each offered in three budget tiers (i.e., Low/Mid/High). A lightweight router performs budget-tier routing across modules to balance task performance and memory construction cost, which is implemented as a compact neural policy trained with reinforcement learning. Using BudgetMem as a unified testbed, we study three complementary strategies for realizing budget tiers: implementation (method complexity), reasoning (inference behavior), and capacity (module model size). Across LoCoMo, LongMemEval, and HotpotQA, BudgetMem surpasses strong baselines when performance is prioritized (i.e., high-budget setting), and delivers better accuracy-cost frontiers under tighter budgets. Moreover, our analysis disentangles the strengths and weaknesses of different tiering strategies, clarifying when each axis delivers the most favorable trade-offs under varying budget regimes.

Apprendimento del Routing a Budget-Tier Consapevole delle Query per la Memoria degli Agenti in Tempo Reale

Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory

Abstract

Support