PREPING: Agentgeheugen opbouwen zonder taken

Samenvatting

Agentgeheugen wordt doorgaans ofwel offline opgebouwd uit geselecteerde demonstraties, ofwel online uit interacties na implementatie. Ongeacht hoe het wordt opgebouwd, wordt een agent echter geconfronteerd met een koude-startkloof wanneer hij voor het eerst wordt geïntroduceerd in een nieuwe omgeving zonder taakspecifieke ervaring. In dit artikel bestuderen we de constructie van geheugen vóór de uitvoering van taken: of een agent procedureel geheugen kan opbouwen voordat hij taken in de doelomgeving waarneemt, door alleen zelf gegenereerde synthetische oefening te gebruiken. Toch is synthetische interactie op zichzelf onvoldoende, want zonder controle over wat er geoefend en opgeslagen wordt, worden synthetische taken redundant, onuitvoerbaar en uiteindelijk niet informatief, en bovendien verslechtert het geheugen snel door ongefilterde trajecten. Om dit te overwinnen presenteren we Preping, een raamwerk voor geheugenconstructie onder leiding van een voorsteller. De kern ervan is het voorstellergeheugen, een gestructureerde controlettoestand die toekomstige oefening vormgeeft. Een Voorsteller genereert synthetische taken die afhankelijk zijn van deze toestand, een Oplosser voert ze uit, en een Validator bepaalt welke trajecten in aanmerking komen voor invoeging in het geheugen, terwijl hij ook feedback geeft om toekomstige voorstellen te sturen. Experimenten op AppWorld, BFCL v3 en MCP-Universe tonen aan dat Preping aanzienlijk verbetert ten opzichte van een basislijn zonder geheugen en prestaties behaalt die concurrerend zijn met sterke, op draaiboeken gebaseerde methoden die zijn opgebouwd uit offline of online ervaring, met implementatiekosten die 2,99 keer lager liggen op AppWorld en 2,23 keer lager op BFCL v3 dan bij online geheugenconstructie. Verdere analyses laten zien dat het belangrijkste voordeel niet alleen voortkomt uit synthetische hoeveelheid, maar uit de controle van de voorstellerkant over uitvoerbaarheid, redundantie en dekking, gecombineerd met selectieve geheugenupdates.

English

Agent memory is typically constructed either offline from curated demonstrations or online from post-deployment interactions. However, regardless of how it is built, an agent faces a cold-start gap when first introduced to a new environment without any task-specific experience available. In this paper, we study pre-task memory construction: whether an agent can build procedural memory before observing any target-environment tasks, using only self-generated synthetic practice. Yet, synthetic interaction alone is insufficient, as without controlling what to practice and what to store, synthetic tasks become redundant, infeasible, and ultimately uninformative, and memory further degrades quickly due to unfiltered trajectories. To overcome this, we present Preping, a proposer-guided memory construction framework. At its core is proposer memory, a structured control state that shapes future practice. A Proposer generates synthetic tasks conditioned on this state, a Solver executes them, and a Validator determines which trajectories are eligible for memory insertion while also providing feedback to guide future proposals. Experiments on AppWorld, BFCL v3, and MCP-Universe show that Preping substantially improves over a no-memory baseline and achieves performance competitive with strong playbook-based methods built from offline or online experience, with deployment cost 2.99times lower on AppWorld and 2.23times lower on BFCL v3 than online memory construction. Further analyses reveal that the main benefit does not come from synthetic volume alone, but from proposer-side control over feasibility, redundancy, and coverage, combined with selective memory updates.