OAgents : Une étude empirique sur la construction d'agents efficaces
OAgents: An Empirical Study of Building Effective Agents
June 17, 2025
Auteurs: He Zhu, Tianrui Qin, King Zhu, Heyuan Huang, Yeyi Guan, Jinxiang Xia, Yi Yao, Hanhao Li, Ningning Wang, Pai Liu, Tianhao Peng, Xin Gui, Xiaowan Li, Yuhui Liu, Yuchen Eleanor Jiang, Jun Wang, Changwang Zhang, Xiangru Tang, Ge Zhang, Jian Yang, Minghao Liu, Xitong Gao, Jiaheng Liu, Wangchunshu Zhou
cs.AI
Résumé
Récemment, l'IA agentique est devenue un domaine de recherche de plus en plus populaire. Cependant, nous soutenons que les pratiques actuelles de recherche sur les agents manquent de standardisation et de rigueur scientifique, rendant difficile la réalisation de comparaisons équitables entre les méthodes. Par conséquent, il reste encore incertain comment les différents choix de conception dans les frameworks d’agents influencent leur efficacité, et mesurer leurs progrès demeure un défi. Dans ce travail, nous menons une étude empirique systématique sur les benchmarks GAIA et BrowseComp afin d’examiner, de manière équitable et rigoureuse, l’impact des choix de conception populaires dans les composants clés des agents. Nous constatons que l’absence d’un protocole d’évaluation standard rend les travaux précédents, même ceux open-source, non reproductibles, avec une variance significative entre les exécutions aléatoires. Ainsi, nous introduisons un protocole d’évaluation plus robuste pour stabiliser les comparaisons. Notre étude révèle quels composants et conceptions sont cruciaux pour des agents efficaces, tandis que d’autres sont redondants, bien qu’ils semblent logiques. Sur la base de nos résultats, nous construisons et ouvrons OAgents, un nouveau framework d’agent de base qui atteint des performances de pointe parmi les projets open-source. OAgents propose une conception modulaire pour divers composants d’agents, favorisant ainsi les recherches futures en IA agentique.
English
Recently, Agentic AI has become an increasingly popular research field.
However, we argue that current agent research practices lack standardization
and scientific rigor, making it hard to conduct fair comparisons among methods.
As a result, it is still unclear how different design choices in agent
frameworks affect effectiveness, and measuring their progress remains
challenging. In this work, we conduct a systematic empirical study on GAIA
benchmark and BrowseComp to examine the impact of popular design choices in key
agent components in a fair and rigorous manner. We find that the lack of a
standard evaluation protocol makes previous works, even open-sourced ones,
non-reproducible, with significant variance between random runs. Therefore, we
introduce a more robust evaluation protocol to stabilize comparisons. Our study
reveals which components and designs are crucial for effective agents, while
others are redundant, despite seeming logical. Based on our findings, we build
and open-source OAgents, a new foundation agent framework that achieves
state-of-the-art performance among open-source projects. OAgents offers a
modular design for various agent components, promoting future research in
Agentic AI.