ChatPaper.aiChatPaper

OAgents: Een Empirische Studie naar het Bouwen van Effectieve Agents

OAgents: An Empirical Study of Building Effective Agents

June 17, 2025
Auteurs: He Zhu, Tianrui Qin, King Zhu, Heyuan Huang, Yeyi Guan, Jinxiang Xia, Yi Yao, Hanhao Li, Ningning Wang, Pai Liu, Tianhao Peng, Xin Gui, Xiaowan Li, Yuhui Liu, Yuchen Eleanor Jiang, Jun Wang, Changwang Zhang, Xiangru Tang, Ge Zhang, Jian Yang, Minghao Liu, Xitong Gao, Jiaheng Liu, Wangchunshu Zhou
cs.AI

Samenvatting

Recentelijk is Agentic AI een steeds populairder onderzoeksgebied geworden. Echter, wij stellen dat de huidige onderzoekspraktijken op het gebied van agents gebrek hebben aan standaardisatie en wetenschappelijke strengheid, wat het moeilijk maakt om eerlijke vergelijkingen tussen methoden te maken. Als gevolg hiervan is het nog steeds onduidelijk hoe verschillende ontwerpkeuzes in agentframeworks de effectiviteit beïnvloeden, en blijft het meten van hun vooruitgang een uitdaging. In dit werk voeren we een systematisch empirisch onderzoek uit op de GAIA-benchmark en BrowseComp om de impact van populaire ontwerpkeuzes in belangrijke agentcomponenten op een eerlijke en rigoureuze manier te onderzoeken. We constateren dat het ontbreken van een standaard evaluatieprotocol ervoor zorgt dat eerdere werken, zelfs open-source werken, niet reproduceerbaar zijn, met aanzienlijke variatie tussen willekeurige runs. Daarom introduceren we een robuuster evaluatieprotocol om vergelijkingen te stabiliseren. Onze studie onthult welke componenten en ontwerpen cruciaal zijn voor effectieve agents, terwijl andere overbodig zijn, ondanks dat ze logisch lijken. Op basis van onze bevindingen bouwen en open-sourcen we OAgents, een nieuw foundation agent-framework dat state-of-the-art prestaties behaalt onder open-source projecten. OAgents biedt een modulair ontwerp voor verschillende agentcomponenten, wat toekomstig onderzoek in Agentic AI bevordert.
English
Recently, Agentic AI has become an increasingly popular research field. However, we argue that current agent research practices lack standardization and scientific rigor, making it hard to conduct fair comparisons among methods. As a result, it is still unclear how different design choices in agent frameworks affect effectiveness, and measuring their progress remains challenging. In this work, we conduct a systematic empirical study on GAIA benchmark and BrowseComp to examine the impact of popular design choices in key agent components in a fair and rigorous manner. We find that the lack of a standard evaluation protocol makes previous works, even open-sourced ones, non-reproducible, with significant variance between random runs. Therefore, we introduce a more robust evaluation protocol to stabilize comparisons. Our study reveals which components and designs are crucial for effective agents, while others are redundant, despite seeming logical. Based on our findings, we build and open-source OAgents, a new foundation agent framework that achieves state-of-the-art performance among open-source projects. OAgents offers a modular design for various agent components, promoting future research in Agentic AI.
PDF362June 24, 2025