ChatPaper.aiChatPaper

OAgents: Uno studio empirico sulla costruzione di agenti efficaci

OAgents: An Empirical Study of Building Effective Agents

June 17, 2025
Autori: He Zhu, Tianrui Qin, King Zhu, Heyuan Huang, Yeyi Guan, Jinxiang Xia, Yi Yao, Hanhao Li, Ningning Wang, Pai Liu, Tianhao Peng, Xin Gui, Xiaowan Li, Yuhui Liu, Yuchen Eleanor Jiang, Jun Wang, Changwang Zhang, Xiangru Tang, Ge Zhang, Jian Yang, Minghao Liu, Xitong Gao, Jiaheng Liu, Wangchunshu Zhou
cs.AI

Abstract

Recentemente, l'AI Agente è diventata un campo di ricerca sempre più popolare. Tuttavia, sosteniamo che le pratiche di ricerca attuali sugli agenti manchino di standardizzazione e rigore scientifico, rendendo difficile condurre confronti equi tra i metodi. Di conseguenza, non è ancora chiaro come le diverse scelte progettuali nei framework degli agenti influenzino l'efficacia, e misurare i loro progressi rimane una sfida. In questo lavoro, conduciamo uno studio empirico sistematico sui benchmark GAIA e BrowseComp per esaminare l'impatto delle scelte progettuali più comuni nei componenti chiave degli agenti in modo equo e rigoroso. Scopriamo che la mancanza di un protocollo di valutazione standard rende i lavori precedenti, anche quelli open-source, non riproducibili, con una significativa variazione tra esecuzioni casuali. Pertanto, introduciamo un protocollo di valutazione più robusto per stabilizzare i confronti. Il nostro studio rivela quali componenti e design sono cruciali per agenti efficaci, mentre altri sono ridondanti, nonostante sembrino logici. Sulla base delle nostre scoperte, costruiamo e rendiamo open-source OAgents, un nuovo framework di agenti di base che raggiunge prestazioni all'avanguardia tra i progetti open-source. OAgents offre un design modulare per vari componenti degli agenti, promuovendo la ricerca futura nell'AI Agente.
English
Recently, Agentic AI has become an increasingly popular research field. However, we argue that current agent research practices lack standardization and scientific rigor, making it hard to conduct fair comparisons among methods. As a result, it is still unclear how different design choices in agent frameworks affect effectiveness, and measuring their progress remains challenging. In this work, we conduct a systematic empirical study on GAIA benchmark and BrowseComp to examine the impact of popular design choices in key agent components in a fair and rigorous manner. We find that the lack of a standard evaluation protocol makes previous works, even open-sourced ones, non-reproducible, with significant variance between random runs. Therefore, we introduce a more robust evaluation protocol to stabilize comparisons. Our study reveals which components and designs are crucial for effective agents, while others are redundant, despite seeming logical. Based on our findings, we build and open-source OAgents, a new foundation agent framework that achieves state-of-the-art performance among open-source projects. OAgents offers a modular design for various agent components, promoting future research in Agentic AI.
PDF352June 24, 2025