ChatPaper.aiChatPaper

Агент KB: Использование междисциплинарного опыта для агентного решения задач

Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving

July 8, 2025
Авторы: Xiangru Tang, Tianrui Qin, Tianhao Peng, Ziyang Zhou, Daniel Shao, Tingting Du, Xinming Wei, Peng Xia, Fang Wu, He Zhu, Ge Zhang, Jiaheng Liu, Xingyao Wang, Sirui Hong, Chenglin Wu, Hao Cheng, Chi Wang, Wangchunshu Zhou
cs.AI

Аннотация

По мере того как языковые агенты берутся за всё более сложные задачи, они сталкиваются с трудностями в эффективном исправлении ошибок и повторном использовании опыта в различных областях. Мы представляем Agent KB — иерархическую структуру опыта, которая позволяет решать сложные задачи с помощью нового конвейера Reason-Retrieve-Refine (Рассуждение-Извлечение-Уточнение). Agent KB устраняет ключевое ограничение: традиционно агенты не могут учиться на опыте друг друга. Фиксируя как высокоуровневые стратегии, так и детальные журналы выполнения, Agent KB создаёт общую базу знаний, которая обеспечивает передачу знаний между агентами. Оценка на бенчмарке GAIA показала, что Agent KB повышает успешность выполнения задач до 16,28 процентных пунктов. На наиболее сложных задачах Claude-3 улучшил свои результаты с 38,46% до 57,69%, а GPT-4 — с 53,49% до 73,26% на задачах средней сложности. На исправлении кода в SWE-bench Agent KB позволил Claude-3 улучшить результат с 41,33% до 53,33%. Наши результаты показывают, что Agent KB предоставляет модульную, независимую от фреймворка инфраструктуру, которая позволяет агентам учиться на прошлом опыте и обобщать успешные стратегии для новых задач.
English
As language agents tackle increasingly complex tasks, they struggle with effective error correction and experience reuse across domains. We introduce Agent KB, a hierarchical experience framework that enables complex agentic problem solving via a novel Reason-Retrieve-Refine pipeline. Agent KB addresses a core limitation: agents traditionally cannot learn from each other's experiences. By capturing both high-level strategies and detailed execution logs, Agent KB creates a shared knowledge base that enables cross-agent knowledge transfer. Evaluated on the GAIA benchmark, Agent KB improves success rates by up to 16.28 percentage points. On the most challenging tasks, Claude-3 improves from 38.46% to 57.69%, while GPT-4 improves from 53.49% to 73.26% on intermediate tasks. On SWE-bench code repair, Agent KB enables Claude-3 to improve from 41.33% to 53.33%. Our results suggest that Agent KB provides a modular, framework-agnostic infrastructure for enabling agents to learn from past experiences and generalize successful strategies to new tasks.
PDF530July 9, 2025