ChatPaper.aiChatPaper

Agente KB: Aprovechando la experiencia entre dominios para la resolución de problemas agentivos

Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving

July 8, 2025
Autores: Xiangru Tang, Tianrui Qin, Tianhao Peng, Ziyang Zhou, Daniel Shao, Tingting Du, Xinming Wei, Peng Xia, Fang Wu, He Zhu, Ge Zhang, Jiaheng Liu, Xingyao Wang, Sirui Hong, Chenglin Wu, Hao Cheng, Chi Wang, Wangchunshu Zhou
cs.AI

Resumen

A medida que los agentes de lenguaje abordan tareas cada vez más complejas, enfrentan dificultades para corregir errores de manera efectiva y reutilizar experiencias entre dominios. Presentamos Agent KB, un marco jerárquico de experiencias que permite la resolución compleja de problemas mediante una novedosa canalización de Razón-Recuperación-Refinamiento. Agent KB aborda una limitación fundamental: tradicionalmente, los agentes no pueden aprender de las experiencias de otros. Al capturar tanto estrategias de alto nivel como registros detallados de ejecución, Agent KB crea una base de conocimiento compartida que facilita la transferencia de conocimiento entre agentes. Evaluado en el benchmark GAIA, Agent KB mejora las tasas de éxito hasta en 16.28 puntos porcentuales. En las tareas más desafiantes, Claude-3 mejora del 38.46% al 57.69%, mientras que GPT-4 avanza del 53.49% al 73.26% en tareas intermedias. En la reparación de código SWE-bench, Agent KB permite que Claude-3 mejore del 41.33% al 53.33%. Nuestros resultados sugieren que Agent KB proporciona una infraestructura modular e independiente del marco, permitiendo que los agentes aprendan de experiencias pasadas y generalicen estrategias exitosas a nuevas tareas.
English
As language agents tackle increasingly complex tasks, they struggle with effective error correction and experience reuse across domains. We introduce Agent KB, a hierarchical experience framework that enables complex agentic problem solving via a novel Reason-Retrieve-Refine pipeline. Agent KB addresses a core limitation: agents traditionally cannot learn from each other's experiences. By capturing both high-level strategies and detailed execution logs, Agent KB creates a shared knowledge base that enables cross-agent knowledge transfer. Evaluated on the GAIA benchmark, Agent KB improves success rates by up to 16.28 percentage points. On the most challenging tasks, Claude-3 improves from 38.46% to 57.69%, while GPT-4 improves from 53.49% to 73.26% on intermediate tasks. On SWE-bench code repair, Agent KB enables Claude-3 to improve from 41.33% to 53.33%. Our results suggest that Agent KB provides a modular, framework-agnostic infrastructure for enabling agents to learn from past experiences and generalize successful strategies to new tasks.
PDF530July 9, 2025