PREPING: Построение памяти агента без задач

Аннотация

Память агентов обычно формируется либо в автономном режиме на основе кураторских демонстраций, либо в онлайн-режиме на основе взаимодействий после развертывания. Однако независимо от способа построения агент сталкивается с проблемой холодного старта при первом знакомстве с новой средой при отсутствии какого-либо специфического для задачи опыта. В данной работе мы исследуем предзадачное построение памяти: может ли агент сформировать процедурную память до наблюдения за задачами в целевой среде, используя только самостоятельно сгенерированную синтетическую практику. Однако одной лишь синтетической практики недостаточно, поскольку без контроля над тем, что практиковать и что сохранять, синтетические задачи становятся избыточными, невыполнимыми и, в конечном итоге, неинформативными, а память быстро деградирует из-за нефильтрованных траекторий. Для преодоления этого мы представляем Preping — фреймворк построения памяти с направляющим компонентом. Его основой является память-предлагатель (proposer memory) — структурированное управляющее состояние, которое формирует будущую практику. Предлагатель (Proposer) генерирует синтетические задачи, обусловленные этим состоянием, Решатель (Solver) выполняет их, а Валидатор (Validator) определяет, какие траектории подходят для вставки в память, а также предоставляет обратную связь для управления будущими предложениями. Эксперименты на AppWorld, BFCL v3 и MCP-Universe показывают, что Preping существенно превосходит базовый вариант без памяти и достигает производительности, сопоставимой с сильными методами на основе сценариев (playbook), построенными на автономном или онлайн-опыте, при этом стоимость развертывания на AppWorld в 2,99 раза ниже, а на BFCL v3 — в 2,23 раза ниже по сравнению с онлайн-построением памяти. Дальнейший анализ показывает, что основное преимущество обусловлено не только объемом синтетических данных, а контролем со стороны предлагателя над выполнимостью, избыточностью и покрытием в сочетании с селективным обновлением памяти.

English

Agent memory is typically constructed either offline from curated demonstrations or online from post-deployment interactions. However, regardless of how it is built, an agent faces a cold-start gap when first introduced to a new environment without any task-specific experience available. In this paper, we study pre-task memory construction: whether an agent can build procedural memory before observing any target-environment tasks, using only self-generated synthetic practice. Yet, synthetic interaction alone is insufficient, as without controlling what to practice and what to store, synthetic tasks become redundant, infeasible, and ultimately uninformative, and memory further degrades quickly due to unfiltered trajectories. To overcome this, we present Preping, a proposer-guided memory construction framework. At its core is proposer memory, a structured control state that shapes future practice. A Proposer generates synthetic tasks conditioned on this state, a Solver executes them, and a Validator determines which trajectories are eligible for memory insertion while also providing feedback to guide future proposals. Experiments on AppWorld, BFCL v3, and MCP-Universe show that Preping substantially improves over a no-memory baseline and achieves performance competitive with strong playbook-based methods built from offline or online experience, with deployment cost 2.99times lower on AppWorld and 2.23times lower on BFCL v3 than online memory construction. Further analyses reveal that the main benefit does not come from synthetic volume alone, but from proposer-side control over feasibility, redundancy, and coverage, combined with selective memory updates.