SkillEvolBench: Benchmarking der Entwicklung von episodischen Erfahrungen zu prozeduralen Fertigkeiten

Zusammenfassung

Große Sprachmodelle (LLM)-Agenten sammeln bei der Lösung realer Aufgaben umfangreiche episodische Trajektorien, doch bleibt unklar, ob solche Erfahrungen in wiederverwendbare prozedurale Fähigkeiten destilliert werden können. Wir stellen SkillEvolBench vor, einen diagnostischen Benchmark zur Bewertung dieses Schritts von der Erfahrungswiederverwendung zur Fähigkeitsbildung. Er umfasst 180 Aufgaben aus sechs realen Agentenumgebungen, die in rollenbedingte Aufgabenfamilien mit gemeinsamen latenten Prozeduren organisiert sind. Agenten lernen aus Erwerbsaufgaben, aktualisieren eine externe Fähigkeitsbibliothek mittels komprimierter Trajektorien und Verifizierer-Rückmeldung und stehen dann vor eingefrorenen Einsatzaufgaben, die Kontextverschiebung, adversarialle Abkürzungen und Komposition testen. Durch den Vergleich von selbstgenerierter und kuratierter Startfähigkeitsentwicklung mit Kontrollbedingungen ohne Fähigkeiten und mit rohen Trajektorien trennt SkillEvolBench prozedurale Abstraktion von Basisfähigkeit, kuratiertem Vorwissen und direkter Wiederverwendung episodischer Spuren. Über zehn Modellkonfigurationen und drei Agenten-Harnesses hinweg stellen wir fest, dass aktuelle Agenten sich oft lokal anpassen, aber selten robuste wiederverwendbare Fähigkeiten ausbilden. Fähigkeitsbasierte Bedingungen können den Erwerb oder die Wiedergabe verbessern, und einzelne Modelle erzielen manchmal Gewinne auf spezifischen Einsatzachsen, doch diese Gewinne sind bei eingefrorenem Einsatz instabil. Die Wiederverwendung roher Trajektorien übertrifft häufig destillierte Fähigkeiten, was darauf hindeutet, dass aktuelle Abstraktionsverfahren kontextuelle und prozedurale Hinweise verwerfen, die für zukünftige Aufgaben nützlich bleiben. Kapazitäts- und Kostenanalysen zeigen zudem, dass das Schreiben von mehr Fähigkeiten oder größeren Ressourcenbibliotheken der Stufe 3 nicht ausreicht: Zusätzliche Aktualisierungen können die Abdeckung verbessern, führen aber gleichzeitig zu episodespezifischer Drift und prozeduralem Durcheinander. Diese Ergebnisse positionieren SkillEvolBench als Testumgebung, um zu messen, wann einmalige Erfahrung zu dauerhaftem prozeduralem Wissen wird und nicht zu einem aufgabenspezifischen Gedächtnis.

English

Large language model (LLM) agents accumulate rich episodic trajectories while solving real-world tasks, but it remains unclear whether such experience can be distilled into reusable procedural skills. We introduce SkillEvolBench, a diagnostic benchmark for evaluating this step from experience reuse to skill formation. It contains 180 tasks across six real-world agent environments, organized into role-conditioned task families with shared latent procedures. Agents learn from acquisition tasks, update an external skill library using compacted trajectories and verifier feedback, and then face frozen deployment tasks testing context shift, adversarial shortcuts, and composition. By comparing self-generated and curated-start skill evolution against no-skill and raw-trajectory controls, SkillEvolBench separates procedural abstraction from base capability, curated prior knowledge, and direct reuse of episodic traces. Across ten model configurations and three agent harnesses, we find that current agents often adapt locally but rarely form robust reusable skills. Skill-based conditions can improve acquisition or replay, and individual models sometimes gain on specific deployment axes, but these gains are unstable under frozen deployment. Raw-trajectory reuse frequently outperforms distilled skills, suggesting that current abstraction procedures discard contextual and procedural cues that remain useful for future tasks. Capacity and cost analyses further show that writing more skills or larger Tier-3 resource libraries is not sufficient: additional updates can improve coverage while introducing episode-specific drift and procedural clutter. These findings position SkillEvolBench as a testbed for measuring when one-off experience becomes durable procedural knowledge rather than task-local memory.