PREPING : Construire la mémoire d'agent sans tâches

Résumé

La mémoire d'un agent est généralement construite soit hors ligne à partir de démonstrations soigneusement sélectionnées, soit en ligne à partir d'interactions post-déploiement. Cependant, quelle que soit sa méthode de construction, un agent se heurte à un fossé de démarrage à froid lorsqu'il est introduit pour la première fois dans un nouvel environnement sans aucune expérience spécifique à la tâche disponible. Dans cet article, nous étudions la construction de mémoire pré-tâche : la possibilité pour un agent de construire une mémoire procédurale avant d'observer des tâches dans l'environnement cible, en utilisant uniquement des exercices synthétiques auto-générés. Pourtant, une interaction purement synthétique s'avère insuffisante, car sans contrôle sur ce qu'il faut pratiquer et ce qu'il faut stocker, les tâches synthétiques deviennent redondantes, irréalisables et finalement peu informatives, et la mémoire se dégrade rapidement en raison de trajectoires non filtrées. Pour surmonter ce problème, nous présentons Preping, un cadre de construction de mémoire guidé par un proposeur. Son cœur est la mémoire du proposeur, un état de contrôle structuré qui façonne les exercices futurs. Un Proposeur génère des tâches synthétiques conditionnées par cet état, un Solveur les exécute, et un Validateur détermine quelles trajectoires sont éligibles pour l'insertion en mémoire tout en fournissant un retour d'information pour orienter les propositions futures. Les expériences sur AppWorld, BFCL v3 et MCP-Universe montrent que Preping améliore considérablement la performance par rapport à une ligne de base sans mémoire et atteint des performances compétitives avec des méthodes robustes basées sur des playbooks construites à partir d'expériences hors ligne ou en ligne, avec un coût de déploiement 2,99 fois inférieur sur AppWorld et 2,23 fois inférieur sur BFCL v3 par rapport à la construction de mémoire en ligne. Des analyses complémentaires révèlent que le principal avantage ne provient pas du seul volume synthétique, mais du contrôle côté proposeur sur la faisabilité, la redondance et la couverture, combiné à des mises à jour sélectives de la mémoire.

English

Agent memory is typically constructed either offline from curated demonstrations or online from post-deployment interactions. However, regardless of how it is built, an agent faces a cold-start gap when first introduced to a new environment without any task-specific experience available. In this paper, we study pre-task memory construction: whether an agent can build procedural memory before observing any target-environment tasks, using only self-generated synthetic practice. Yet, synthetic interaction alone is insufficient, as without controlling what to practice and what to store, synthetic tasks become redundant, infeasible, and ultimately uninformative, and memory further degrades quickly due to unfiltered trajectories. To overcome this, we present Preping, a proposer-guided memory construction framework. At its core is proposer memory, a structured control state that shapes future practice. A Proposer generates synthetic tasks conditioned on this state, a Solver executes them, and a Validator determines which trajectories are eligible for memory insertion while also providing feedback to guide future proposals. Experiments on AppWorld, BFCL v3, and MCP-Universe show that Preping substantially improves over a no-memory baseline and achieves performance competitive with strong playbook-based methods built from offline or online experience, with deployment cost 2.99times lower on AppWorld and 2.23times lower on BFCL v3 than online memory construction. Further analyses reveal that the main benefit does not come from synthetic volume alone, but from proposer-side control over feasibility, redundancy, and coverage, combined with selective memory updates.