Agent KB: Sfruttare l'Esperienza Trans-Dominio per la Risoluzione di Problemi Agenti
Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving
July 8, 2025
Autori: Xiangru Tang, Tianrui Qin, Tianhao Peng, Ziyang Zhou, Daniel Shao, Tingting Du, Xinming Wei, Peng Xia, Fang Wu, He Zhu, Ge Zhang, Jiaheng Liu, Xingyao Wang, Sirui Hong, Chenglin Wu, Hao Cheng, Chi Wang, Wangchunshu Zhou
cs.AI
Abstract
Mentre gli agenti linguistici affrontano compiti sempre più complessi, incontrano difficoltà nella correzione efficace degli errori e nel riutilizzo delle esperienze tra diversi domini. Introduciamo Agent KB, un framework gerarchico per l'esperienza che abilita la risoluzione complessa di problemi agentici attraverso una nuova pipeline Reason-Retrieve-Refine. Agent KB affronta una limitazione fondamentale: tradizionalmente, gli agenti non possono apprendere dalle esperienze reciproche. Catturando sia strategie di alto livello che log dettagliati di esecuzione, Agent KB crea una base di conoscenza condivisa che consente il trasferimento di conoscenze tra agenti. Valutato sul benchmark GAIA, Agent KB migliora i tassi di successo fino a 16,28 punti percentuali. Nei compiti più impegnativi, Claude-3 passa dal 38,46% al 57,69%, mentre GPT-4 migliora dal 53,49% al 73,26% nei compiti intermedi. Nella riparazione del codice SWE-bench, Agent KB consente a Claude-3 di passare dal 41,33% al 53,33%. I nostri risultati suggeriscono che Agent KB fornisce un'infrastruttura modulare e indipendente dal framework, che consente agli agenti di apprendere dalle esperienze passate e generalizzare strategie di successo per nuovi compiti.
English
As language agents tackle increasingly complex tasks, they struggle with
effective error correction and experience reuse across domains. We introduce
Agent KB, a hierarchical experience framework that enables complex agentic
problem solving via a novel Reason-Retrieve-Refine pipeline. Agent KB addresses
a core limitation: agents traditionally cannot learn from each other's
experiences. By capturing both high-level strategies and detailed execution
logs, Agent KB creates a shared knowledge base that enables cross-agent
knowledge transfer. Evaluated on the GAIA benchmark, Agent KB improves success
rates by up to 16.28 percentage points. On the most challenging tasks, Claude-3
improves from 38.46% to 57.69%, while GPT-4 improves from 53.49% to 73.26% on
intermediate tasks. On SWE-bench code repair, Agent KB enables Claude-3 to
improve from 41.33% to 53.33%. Our results suggest that Agent KB provides a
modular, framework-agnostic infrastructure for enabling agents to learn from
past experiences and generalize successful strategies to new tasks.