PREPING: Construindo Memória de Agente sem Tarefas

Resumo

A memória do agente é tipicamente construída offline a partir de demonstrações curadas ou online a partir de interações pós-implantação. No entanto, independentemente de como é construída, um agente enfrenta uma lacuna de inicialização a frio quando introduzido pela primeira vez em um novo ambiente, sem qualquer experiência específica de tarefa disponível. Neste artigo, estudamos a construção de memória pré-tarefa: se um agente pode construir memória procedural antes de observar quaisquer tarefas do ambiente-alvo, utilizando apenas prática sintética autogerada. Contudo, a interação sintética isolada é insuficiente, pois, sem controle sobre o que praticar e o que armazenar, as tarefas sintéticas tornam-se redundantes, inviáveis e, em última análise, pouco informativas, e a memória se degrada rapidamente devido a trajetórias não filtradas. Para superar isso, apresentamos Preping, uma estrutura de construção de memória guiada por proponente. Seu núcleo é a memória do proponente, um estado de controle estruturado que molda a prática futura. Um Proponente gera tarefas sintéticas condicionadas a esse estado, um Solver as executa, e um Validador determina quais trajetórias são elegíveis para inserção na memória, além de fornecer feedback para orientar propostas futuras. Experimentos no AppWorld, BFCL v3 e MCP-Universe mostram que o Preping melhora substancialmente em relação a uma linha de base sem memória e atinge desempenho competitivo com métodos robustos baseados em playbook construídos a partir de experiência offline ou online, com custo de implantação 2,99 vezes menor no AppWorld e 2,23 vezes menor no BFCL v3 do que a construção de memória online. Análises adicionais revelam que o principal benefício não advém apenas do volume sintético, mas do controle do lado do proponente sobre viabilidade, redundância e cobertura, combinado com atualizações seletivas de memória.

English

Agent memory is typically constructed either offline from curated demonstrations or online from post-deployment interactions. However, regardless of how it is built, an agent faces a cold-start gap when first introduced to a new environment without any task-specific experience available. In this paper, we study pre-task memory construction: whether an agent can build procedural memory before observing any target-environment tasks, using only self-generated synthetic practice. Yet, synthetic interaction alone is insufficient, as without controlling what to practice and what to store, synthetic tasks become redundant, infeasible, and ultimately uninformative, and memory further degrades quickly due to unfiltered trajectories. To overcome this, we present Preping, a proposer-guided memory construction framework. At its core is proposer memory, a structured control state that shapes future practice. A Proposer generates synthetic tasks conditioned on this state, a Solver executes them, and a Validator determines which trajectories are eligible for memory insertion while also providing feedback to guide future proposals. Experiments on AppWorld, BFCL v3, and MCP-Universe show that Preping substantially improves over a no-memory baseline and achieves performance competitive with strong playbook-based methods built from offline or online experience, with deployment cost 2.99times lower on AppWorld and 2.23times lower on BFCL v3 than online memory construction. Further analyses reveal that the main benefit does not come from synthetic volume alone, but from proposer-side control over feasibility, redundancy, and coverage, combined with selective memory updates.