Agent KB: Benutting van domeinoverschrijdende ervaring voor agentgericht probleemoplossen
Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving
July 8, 2025
Auteurs: Xiangru Tang, Tianrui Qin, Tianhao Peng, Ziyang Zhou, Daniel Shao, Tingting Du, Xinming Wei, Peng Xia, Fang Wu, He Zhu, Ge Zhang, Jiaheng Liu, Xingyao Wang, Sirui Hong, Chenglin Wu, Hao Cheng, Chi Wang, Wangchunshu Zhou
cs.AI
Samenvatting
Naarmate taalagentschappen steeds complexere taken aanpakken, worstelen ze met effectieve foutcorrectie en hergebruik van ervaringen over domeinen heen. Wij introduceren Agent KB, een hiërarchisch ervaringsframework dat complexe agentische probleemoplossing mogelijk maakt via een nieuwe Reason-Retrieve-Refine-pijplijn. Agent KB adresseert een kernbeperking: traditioneel kunnen agentschappen niet leren van elkaars ervaringen. Door zowel hoogwaardige strategieën als gedetailleerde uitvoeringslogboeken vast te leggen, creëert Agent KB een gedeelde kennisbank die kennisoverdracht tussen agentschappen mogelijk maakt. Geëvalueerd op de GAIA-benchmark verbetert Agent KB de slagingspercentages met tot wel 16,28 procentpunten. Bij de meest uitdagende taken verbetert Claude-3 van 38,46% naar 57,69%, terwijl GPT-4 bij intermediaire taken verbetert van 53,49% naar 73,26%. Bij SWE-bench codeherstel stelt Agent KB Claude-3 in staat om te verbeteren van 41,33% naar 53,33%. Onze resultaten suggereren dat Agent KB een modulaire, framework-agnostische infrastructuur biedt waarmee agentschappen kunnen leren van eerdere ervaringen en succesvolle strategieën kunnen generaliseren naar nieuwe taken.
English
As language agents tackle increasingly complex tasks, they struggle with
effective error correction and experience reuse across domains. We introduce
Agent KB, a hierarchical experience framework that enables complex agentic
problem solving via a novel Reason-Retrieve-Refine pipeline. Agent KB addresses
a core limitation: agents traditionally cannot learn from each other's
experiences. By capturing both high-level strategies and detailed execution
logs, Agent KB creates a shared knowledge base that enables cross-agent
knowledge transfer. Evaluated on the GAIA benchmark, Agent KB improves success
rates by up to 16.28 percentage points. On the most challenging tasks, Claude-3
improves from 38.46% to 57.69%, while GPT-4 improves from 53.49% to 73.26% on
intermediate tasks. On SWE-bench code repair, Agent KB enables Claude-3 to
improve from 41.33% to 53.33%. Our results suggest that Agent KB provides a
modular, framework-agnostic infrastructure for enabling agents to learn from
past experiences and generalize successful strategies to new tasks.