OAgents: Een Empirische Studie naar het Bouwen van Effectieve Agents
OAgents: An Empirical Study of Building Effective Agents
June 17, 2025
Auteurs: He Zhu, Tianrui Qin, King Zhu, Heyuan Huang, Yeyi Guan, Jinxiang Xia, Yi Yao, Hanhao Li, Ningning Wang, Pai Liu, Tianhao Peng, Xin Gui, Xiaowan Li, Yuhui Liu, Yuchen Eleanor Jiang, Jun Wang, Changwang Zhang, Xiangru Tang, Ge Zhang, Jian Yang, Minghao Liu, Xitong Gao, Jiaheng Liu, Wangchunshu Zhou
cs.AI
Samenvatting
Recentelijk is Agentic AI een steeds populairder onderzoeksgebied geworden.
Echter, wij stellen dat de huidige onderzoekspraktijken op het gebied van agents
gebrek hebben aan standaardisatie en wetenschappelijke strengheid, wat het
moeilijk maakt om eerlijke vergelijkingen tussen methoden te maken. Als gevolg
hiervan is het nog steeds onduidelijk hoe verschillende ontwerpkeuzes in
agentframeworks de effectiviteit beïnvloeden, en blijft het meten van hun
vooruitgang een uitdaging. In dit werk voeren we een systematisch empirisch
onderzoek uit op de GAIA-benchmark en BrowseComp om de impact van populaire
ontwerpkeuzes in belangrijke agentcomponenten op een eerlijke en rigoureuze
manier te onderzoeken. We constateren dat het ontbreken van een standaard
evaluatieprotocol ervoor zorgt dat eerdere werken, zelfs open-source werken,
niet reproduceerbaar zijn, met aanzienlijke variatie tussen willekeurige runs.
Daarom introduceren we een robuuster evaluatieprotocol om vergelijkingen te
stabiliseren. Onze studie onthult welke componenten en ontwerpen cruciaal zijn
voor effectieve agents, terwijl andere overbodig zijn, ondanks dat ze logisch
lijken. Op basis van onze bevindingen bouwen en open-sourcen we OAgents, een
nieuw foundation agent-framework dat state-of-the-art prestaties behaalt onder
open-source projecten. OAgents biedt een modulair ontwerp voor verschillende
agentcomponenten, wat toekomstig onderzoek in Agentic AI bevordert.
English
Recently, Agentic AI has become an increasingly popular research field.
However, we argue that current agent research practices lack standardization
and scientific rigor, making it hard to conduct fair comparisons among methods.
As a result, it is still unclear how different design choices in agent
frameworks affect effectiveness, and measuring their progress remains
challenging. In this work, we conduct a systematic empirical study on GAIA
benchmark and BrowseComp to examine the impact of popular design choices in key
agent components in a fair and rigorous manner. We find that the lack of a
standard evaluation protocol makes previous works, even open-sourced ones,
non-reproducible, with significant variance between random runs. Therefore, we
introduce a more robust evaluation protocol to stabilize comparisons. Our study
reveals which components and designs are crucial for effective agents, while
others are redundant, despite seeming logical. Based on our findings, we build
and open-source OAgents, a new foundation agent framework that achieves
state-of-the-art performance among open-source projects. OAgents offers a
modular design for various agent components, promoting future research in
Agentic AI.