ChatPaper.aiChatPaper

Agente KB: Aproveitando a Experiência Transdomínio para Resolução de Problemas Agênticos

Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving

July 8, 2025
Autores: Xiangru Tang, Tianrui Qin, Tianhao Peng, Ziyang Zhou, Daniel Shao, Tingting Du, Xinming Wei, Peng Xia, Fang Wu, He Zhu, Ge Zhang, Jiaheng Liu, Xingyao Wang, Sirui Hong, Chenglin Wu, Hao Cheng, Chi Wang, Wangchunshu Zhou
cs.AI

Resumo

À medida que os agentes de linguagem lidam com tarefas cada vez mais complexas, eles enfrentam dificuldades com a correção eficaz de erros e a reutilização de experiências entre domínios. Apresentamos o Agent KB, uma estrutura hierárquica de experiência que permite a resolução complexa de problemas por meio de um pipeline inovador de Raciocinar-Recuperar-Refinar. O Agent KB aborda uma limitação central: tradicionalmente, os agentes não conseguem aprender com as experiências uns dos outros. Ao capturar tanto estratégias de alto nível quanto logs detalhados de execução, o Agent KB cria uma base de conhecimento compartilhada que possibilita a transferência de conhecimento entre agentes. Avaliado no benchmark GAIA, o Agent KB aumenta as taxas de sucesso em até 16,28 pontos percentuais. Nas tarefas mais desafiadoras, o Claude-3 melhora de 38,46% para 57,69%, enquanto o GPT-4 avança de 53,49% para 73,26% em tarefas intermediárias. No reparo de código do SWE-bench, o Agent KB permite que o Claude-3 melhore de 41,33% para 53,33%. Nossos resultados sugerem que o Agent KB fornece uma infraestrutura modular e independente de framework, permitindo que os agentes aprendam com experiências passadas e generalizem estratégias bem-sucedidas para novas tarefas.
English
As language agents tackle increasingly complex tasks, they struggle with effective error correction and experience reuse across domains. We introduce Agent KB, a hierarchical experience framework that enables complex agentic problem solving via a novel Reason-Retrieve-Refine pipeline. Agent KB addresses a core limitation: agents traditionally cannot learn from each other's experiences. By capturing both high-level strategies and detailed execution logs, Agent KB creates a shared knowledge base that enables cross-agent knowledge transfer. Evaluated on the GAIA benchmark, Agent KB improves success rates by up to 16.28 percentage points. On the most challenging tasks, Claude-3 improves from 38.46% to 57.69%, while GPT-4 improves from 53.49% to 73.26% on intermediate tasks. On SWE-bench code repair, Agent KB enables Claude-3 to improve from 41.33% to 53.33%. Our results suggest that Agent KB provides a modular, framework-agnostic infrastructure for enabling agents to learn from past experiences and generalize successful strategies to new tasks.
PDF530July 9, 2025