Agent KB : Exploitation de l'expérience interdomaine pour la résolution de problèmes agentiques
Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving
July 8, 2025
papers.authors: Xiangru Tang, Tianrui Qin, Tianhao Peng, Ziyang Zhou, Daniel Shao, Tingting Du, Xinming Wei, Peng Xia, Fang Wu, He Zhu, Ge Zhang, Jiaheng Liu, Xingyao Wang, Sirui Hong, Chenglin Wu, Hao Cheng, Chi Wang, Wangchunshu Zhou
cs.AI
papers.abstract
Alors que les agents linguistiques s'attaquent à des tâches de plus en plus complexes, ils peinent à corriger efficacement les erreurs et à réutiliser leurs expériences à travers différents domaines. Nous présentons Agent KB, un cadre hiérarchique d'expérience qui permet la résolution complexe de problèmes par le biais d'un nouveau pipeline Raisonner-Récupérer-Raffiner. Agent KB répond à une limitation fondamentale : traditionnellement, les agents ne peuvent pas apprendre des expériences des autres. En capturant à la fois des stratégies de haut niveau et des journaux d'exécution détaillés, Agent KB crée une base de connaissances partagée qui facilite le transfert de connaissances entre agents. Évalué sur le benchmark GAIA, Agent KB améliore les taux de réussite jusqu'à 16,28 points de pourcentage. Sur les tâches les plus difficiles, Claude-3 passe de 38,46 % à 57,69 %, tandis que GPT-4 progresse de 53,49 % à 73,26 % sur les tâches intermédiaires. Sur la réparation de code SWE-bench, Agent KB permet à Claude-3 d'améliorer son taux de réussite de 41,33 % à 53,33 %. Nos résultats suggèrent qu'Agent KB fournit une infrastructure modulaire et indépendante du cadre, permettant aux agents d'apprendre des expériences passées et de généraliser des stratégies réussies à de nouvelles tâches.
English
As language agents tackle increasingly complex tasks, they struggle with
effective error correction and experience reuse across domains. We introduce
Agent KB, a hierarchical experience framework that enables complex agentic
problem solving via a novel Reason-Retrieve-Refine pipeline. Agent KB addresses
a core limitation: agents traditionally cannot learn from each other's
experiences. By capturing both high-level strategies and detailed execution
logs, Agent KB creates a shared knowledge base that enables cross-agent
knowledge transfer. Evaluated on the GAIA benchmark, Agent KB improves success
rates by up to 16.28 percentage points. On the most challenging tasks, Claude-3
improves from 38.46% to 57.69%, while GPT-4 improves from 53.49% to 73.26% on
intermediate tasks. On SWE-bench code repair, Agent KB enables Claude-3 to
improve from 41.33% to 53.33%. Our results suggest that Agent KB provides a
modular, framework-agnostic infrastructure for enabling agents to learn from
past experiences and generalize successful strategies to new tasks.