ChatPaper.aiChatPaper

OAgents: Эмпирическое исследование создания эффективных агентов

OAgents: An Empirical Study of Building Effective Agents

June 17, 2025
Авторы: He Zhu, Tianrui Qin, King Zhu, Heyuan Huang, Yeyi Guan, Jinxiang Xia, Yi Yao, Hanhao Li, Ningning Wang, Pai Liu, Tianhao Peng, Xin Gui, Xiaowan Li, Yuhui Liu, Yuchen Eleanor Jiang, Jun Wang, Changwang Zhang, Xiangru Tang, Ge Zhang, Jian Yang, Minghao Liu, Xitong Gao, Jiaheng Liu, Wangchunshu Zhou
cs.AI

Аннотация

В последнее время агентный искусственный интеллект стал всё более популярной областью исследований. Однако мы утверждаем, что текущие практики исследования агентов лишены стандартизации и научной строгости, что затрудняет проведение справедливых сравнений между методами. В результате до сих пор неясно, как различные проектные решения в рамках агентных систем влияют на их эффективность, а измерение их прогресса остаётся сложной задачей. В данной работе мы проводим систематическое эмпирическое исследование на базе бенчмарка GAIA и BrowseComp, чтобы изучить влияние популярных проектных решений в ключевых компонентах агентов в справедливой и строгой манере. Мы обнаруживаем, что отсутствие стандартного протокола оценки делает предыдущие работы, даже с открытым исходным кодом, невоспроизводимыми, с существенным разбросом между случайными запусками. Поэтому мы вводим более надёжный протокол оценки для стабилизации сравнений. Наше исследование выявляет, какие компоненты и решения являются критически важными для эффективных агентов, а какие избыточны, несмотря на их кажущуюся логичность. На основе наших выводов мы создаём и открываем исходный код OAgents — новой базовой агентной системы, которая демонстрирует наилучшие результаты среди проектов с открытым исходным кодом. OAgents предлагает модульную структуру для различных компонентов агентов, способствуя дальнейшим исследованиям в области агентного искусственного интеллекта.
English
Recently, Agentic AI has become an increasingly popular research field. However, we argue that current agent research practices lack standardization and scientific rigor, making it hard to conduct fair comparisons among methods. As a result, it is still unclear how different design choices in agent frameworks affect effectiveness, and measuring their progress remains challenging. In this work, we conduct a systematic empirical study on GAIA benchmark and BrowseComp to examine the impact of popular design choices in key agent components in a fair and rigorous manner. We find that the lack of a standard evaluation protocol makes previous works, even open-sourced ones, non-reproducible, with significant variance between random runs. Therefore, we introduce a more robust evaluation protocol to stabilize comparisons. Our study reveals which components and designs are crucial for effective agents, while others are redundant, despite seeming logical. Based on our findings, we build and open-source OAgents, a new foundation agent framework that achieves state-of-the-art performance among open-source projects. OAgents offers a modular design for various agent components, promoting future research in Agentic AI.
PDF241June 24, 2025