Изучение маршрутизации с учетом запросов и бюджетных уровней для оперативной памяти агента

Аннотация

Память становится все более важной для агентов на основе больших языковых моделей (LLM), работающих за пределами одного контекстного окна, однако большинство существующих систем полагаются на офлайн-построение памяти, не зависящее от запроса, что может быть неэффективным и способно отбрасывать информацию, критически важную для запроса. Хотя использование памяти в режиме выполнения является естественной альтернативой, предыдущие подходы часто несут значительные накладные расходы и предоставляют ограниченный явный контроль над компромиссом между производительностью и стоимостью. В данной работе мы представляем BudgetMem — фреймворк памяти для агентов, работающий в режиме выполнения и обеспечивающий явный, учитывающий запрос контроль производительности и стоимости. BudgetMem структурирует обработку памяти как набор модулей памяти, каждый из которых предлагается в трех уровнях бюджета (т.е. Низкий/Средний/Высокий). Легковесный маршрутизатор выполняет распределение по бюджетным уровням между модулями, чтобы сбалансировать производительность задачи и стоимость построения памяти; это реализовано в виде компактной нейросетевой политики, обученной с подкреплением. Используя BudgetMem в качестве унифицированного испытательного стенда, мы исследуем три взаимодополняющие стратегии для реализации бюджетных уровней: реализация (сложность метода), рассуждение (поведение при выводе) и емкость (размер модели модуля). На наборах данных LoCoMo, LongMemEval и HotpotQA BudgetMem превосходит сильные базовые линии, когда приоритет отдается производительности (т.е. в условиях высокого бюджета), и обеспечивает лучший компромисс между точностью и стоимостью при более жестких бюджетах. Более того, наш анализ выявляет сильные и слабые стороны различных стратегий градации, проясняя, когда каждая из осей обеспечивает наиболее благоприятный компромисс в условиях различных бюджетных режимов.

English

Memory is increasingly central to Large Language Model (LLM) agents operating beyond a single context window, yet most existing systems rely on offline, query-agnostic memory construction that can be inefficient and may discard query-critical information. Although runtime memory utilization is a natural alternative, prior work often incurs substantial overhead and offers limited explicit control over the performance-cost trade-off. In this work, we present BudgetMem, a runtime agent memory framework for explicit, query-aware performance-cost control. BudgetMem structures memory processing as a set of memory modules, each offered in three budget tiers (i.e., Low/Mid/High). A lightweight router performs budget-tier routing across modules to balance task performance and memory construction cost, which is implemented as a compact neural policy trained with reinforcement learning. Using BudgetMem as a unified testbed, we study three complementary strategies for realizing budget tiers: implementation (method complexity), reasoning (inference behavior), and capacity (module model size). Across LoCoMo, LongMemEval, and HotpotQA, BudgetMem surpasses strong baselines when performance is prioritized (i.e., high-budget setting), and delivers better accuracy-cost frontiers under tighter budgets. Moreover, our analysis disentangles the strengths and weaknesses of different tiering strategies, clarifying when each axis delivers the most favorable trade-offs under varying budget regimes.

Изучение маршрутизации с учетом запросов и бюджетных уровней для оперативной памяти агента

Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory

Аннотация

Support