Agent KB: Nutzung domänenübergreifender Erfahrung für agentenbasiertes Problemlösen
Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving
July 8, 2025
papers.authors: Xiangru Tang, Tianrui Qin, Tianhao Peng, Ziyang Zhou, Daniel Shao, Tingting Du, Xinming Wei, Peng Xia, Fang Wu, He Zhu, Ge Zhang, Jiaheng Liu, Xingyao Wang, Sirui Hong, Chenglin Wu, Hao Cheng, Chi Wang, Wangchunshu Zhou
cs.AI
papers.abstract
Während Sprachagenten zunehmend komplexere Aufgaben bewältigen, haben sie Schwierigkeiten mit effektiver Fehlerkorrektur und der Wiederverwendung von Erfahrungen über Domänen hinweg. Wir stellen Agent KB vor, ein hierarchisches Erfahrungsframework, das komplexes agentenbasiertes Problemlösen durch eine neuartige Reason-Retrieve-Refine-Pipeline ermöglicht. Agent KB adressiert eine zentrale Einschränkung: Traditionell können Agenten nicht voneinander lernen. Durch die Erfassung sowohl hochrangiger Strategien als auch detaillierter Ausführungsprotokolle schafft Agent KB eine gemeinsame Wissensbasis, die den Wissenstransfer zwischen Agenten ermöglicht. Auf dem GAIA-Benchmark evaluiert, verbessert Agent KB die Erfolgsraten um bis zu 16,28 Prozentpunkte. Bei den anspruchsvollsten Aufgaben verbessert sich Claude-3 von 38,46 % auf 57,69 %, während GPT-4 bei mittelschweren Aufgaben von 53,49 % auf 73,26 % steigt. Bei der Code-Reparatur auf SWE-bench ermöglicht Agent KB Claude-3 eine Verbesserung von 41,33 % auf 53,33 %. Unsere Ergebnisse deuten darauf hin, dass Agent KB eine modulare, framework-agnostische Infrastruktur bietet, die es Agenten ermöglicht, aus vergangenen Erfahrungen zu lernen und erfolgreiche Strategien auf neue Aufgaben zu übertragen.
English
As language agents tackle increasingly complex tasks, they struggle with
effective error correction and experience reuse across domains. We introduce
Agent KB, a hierarchical experience framework that enables complex agentic
problem solving via a novel Reason-Retrieve-Refine pipeline. Agent KB addresses
a core limitation: agents traditionally cannot learn from each other's
experiences. By capturing both high-level strategies and detailed execution
logs, Agent KB creates a shared knowledge base that enables cross-agent
knowledge transfer. Evaluated on the GAIA benchmark, Agent KB improves success
rates by up to 16.28 percentage points. On the most challenging tasks, Claude-3
improves from 38.46% to 57.69%, while GPT-4 improves from 53.49% to 73.26% on
intermediate tasks. On SWE-bench code repair, Agent KB enables Claude-3 to
improve from 41.33% to 53.33%. Our results suggest that Agent KB provides a
modular, framework-agnostic infrastructure for enabling agents to learn from
past experiences and generalize successful strategies to new tasks.