PREPING: Aufbau von Agentengedächtnis ohne Aufgaben

Zusammenfassung

Agentengedächtnis wird typischerweise entweder offline aus kuratierten Demonstrationen oder online aus Interaktionen nach dem Einsatz aufgebaut. Unabhängig davon, wie es aufgebaut wird, sieht sich ein Agent jedoch einer Kaltstartlücke gegenüber, wenn er erstmals in eine neue Umgebung eingeführt wird, ohne dass aufgabenspezifische Erfahrungen verfügbar sind. In dieser Arbeit untersuchen wir den Aufbau von Gedächtnis vor der Aufgabenausführung: ob ein Agent prozedurales Gedächtnis aufbauen kann, bevor er Aufgaben in der Zielumgebung beobachtet, indem er nur selbstgenerierte synthetische Übungen nutzt. Doch allein synthetische Interaktion reicht nicht aus, da synthetische Aufgaben ohne Kontrolle darüber, was geübt und was gespeichert wird, redundant, undurchführbar und letztlich uninformativ werden; zudem verschlechtert sich das Gedächtnis aufgrund ungefilterter Trajektorien schnell. Um dies zu überwinden, stellen wir Preping vor, ein vorschlagsgesteuertes Framework für den Gedächtnisaufbau. Sein Kern ist das Vorschlagsgedächtnis, ein strukturierter Kontrollzustand, der zukünftige Übungen formt. Ein Vorschlagsgenerator (Proposer) erzeugt synthetische Aufgaben, die von diesem Zustand abhängen, ein Löser (Solver) führt sie aus, und ein Validator bestimmt, welche Trajektorien für die Gedächtnisaufnahme geeignet sind, während er gleichzeitig Rückmeldung zur Steuerung zukünftiger Vorschläge gibt. Experimente auf AppWorld, BFCL v3 und MCP-Universe zeigen, dass Preping die Leistung im Vergleich zu einer Baseline ohne Gedächtnis erheblich verbessert und eine mit starken, auf Spielbüchern basierenden Methoden (die auf offline oder online Erfahrung aufbauen) vergleichbare Leistung erzielt, wobei die Einsatzkosten auf AppWorld um das 2,99-Fache und auf BFCL v3 um das 2,23-Fache niedriger sind als beim Online-Gedächtnisaufbau. Weitere Analysen zeigen, dass der Hauptvorteil nicht allein aus dem synthetischen Umfang resultiert, sondern aus der Steuerung von Machbarkeit, Redundanz und Abdeckung auf Seiten des Vorschlagsgenerators in Kombination mit selektiven Gedächtnisaktualisierungen.

English

Agent memory is typically constructed either offline from curated demonstrations or online from post-deployment interactions. However, regardless of how it is built, an agent faces a cold-start gap when first introduced to a new environment without any task-specific experience available. In this paper, we study pre-task memory construction: whether an agent can build procedural memory before observing any target-environment tasks, using only self-generated synthetic practice. Yet, synthetic interaction alone is insufficient, as without controlling what to practice and what to store, synthetic tasks become redundant, infeasible, and ultimately uninformative, and memory further degrades quickly due to unfiltered trajectories. To overcome this, we present Preping, a proposer-guided memory construction framework. At its core is proposer memory, a structured control state that shapes future practice. A Proposer generates synthetic tasks conditioned on this state, a Solver executes them, and a Validator determines which trajectories are eligible for memory insertion while also providing feedback to guide future proposals. Experiments on AppWorld, BFCL v3, and MCP-Universe show that Preping substantially improves over a no-memory baseline and achieves performance competitive with strong playbook-based methods built from offline or online experience, with deployment cost 2.99times lower on AppWorld and 2.23times lower on BFCL v3 than online memory construction. Further analyses reveal that the main benefit does not come from synthetic volume alone, but from proposer-side control over feasibility, redundancy, and coverage, combined with selective memory updates.