PREPING: Construyendo memoria de agente sin tareas

Resumen

La memoria del agente se construye típicamente, ya sea fuera de línea a partir de demostraciones seleccionadas, o en línea a partir de interacciones posteriores al despliegue. Sin embargo, independientemente de cómo se construya, un agente enfrenta una brecha de inicio en frío cuando se introduce por primera vez en un nuevo entorno sin experiencia previa específica de la tarea disponible. En este artículo, estudiamos la construcción de memoria previa a la tarea: si un agente puede construir memoria procedimental antes de observar cualquier tarea del entorno objetivo, utilizando únicamente práctica sintética autogenerada. Sin embargo, la interacción sintética por sí sola es insuficiente, ya que sin controlar qué practicar y qué almacenar, las tareas sintéticas se vuelven redundantes, inviables y, en última instancia, poco informativas, y la memoria se degrada rápidamente debido a trayectorias no filtradas. Para superar esto, presentamos Preping, un marco de construcción de memoria guiado por un proponente. En su núcleo se encuentra la memoria del proponente, un estado de control estructurado que da forma a la práctica futura. Un Proponente genera tareas sintéticas condicionadas a este estado, un Solucionador las ejecuta, y un Validador determina qué trayectorias son elegibles para la inserción en la memoria, al mismo tiempo que proporciona retroalimentación para guiar futuras propuestas. Experimentos en AppWorld, BFCL v3 y MCP-Universe muestran que Preping mejora sustancialmente en comparación con una línea base sin memoria y logra un rendimiento competitivo con métodos sólidos basados en manuales de jugadas construidos a partir de experiencia fuera de línea o en línea, con un costo de despliegue 2.99 veces menor en AppWorld y 2.23 veces menor en BFCL v3 en comparación con la construcción de memoria en línea. Análisis adicionales revelan que el principal beneficio no proviene únicamente del volumen sintético, sino del control por parte del proponente sobre la viabilidad, la redundancia y la cobertura, combinado con actualizaciones selectivas de la memoria.

English

Agent memory is typically constructed either offline from curated demonstrations or online from post-deployment interactions. However, regardless of how it is built, an agent faces a cold-start gap when first introduced to a new environment without any task-specific experience available. In this paper, we study pre-task memory construction: whether an agent can build procedural memory before observing any target-environment tasks, using only self-generated synthetic practice. Yet, synthetic interaction alone is insufficient, as without controlling what to practice and what to store, synthetic tasks become redundant, infeasible, and ultimately uninformative, and memory further degrades quickly due to unfiltered trajectories. To overcome this, we present Preping, a proposer-guided memory construction framework. At its core is proposer memory, a structured control state that shapes future practice. A Proposer generates synthetic tasks conditioned on this state, a Solver executes them, and a Validator determines which trajectories are eligible for memory insertion while also providing feedback to guide future proposals. Experiments on AppWorld, BFCL v3, and MCP-Universe show that Preping substantially improves over a no-memory baseline and achieves performance competitive with strong playbook-based methods built from offline or online experience, with deployment cost 2.99times lower on AppWorld and 2.23times lower on BFCL v3 than online memory construction. Further analyses reveal that the main benefit does not come from synthetic volume alone, but from proposer-side control over feasibility, redundancy, and coverage, combined with selective memory updates.