OAgents: Um Estudo Empírico sobre a Construção de Agentes Eficazes
OAgents: An Empirical Study of Building Effective Agents
June 17, 2025
Autores: He Zhu, Tianrui Qin, King Zhu, Heyuan Huang, Yeyi Guan, Jinxiang Xia, Yi Yao, Hanhao Li, Ningning Wang, Pai Liu, Tianhao Peng, Xin Gui, Xiaowan Li, Yuhui Liu, Yuchen Eleanor Jiang, Jun Wang, Changwang Zhang, Xiangru Tang, Ge Zhang, Jian Yang, Minghao Liu, Xitong Gao, Jiaheng Liu, Wangchunshu Zhou
cs.AI
Resumo
Recentemente, a IA Agente tornou-se um campo de pesquisa cada vez mais popular.
No entanto, argumentamos que as práticas atuais de pesquisa em agentes carecem de padronização
e rigor científico, dificultando a realização de comparações justas entre métodos.
Como resultado, ainda não está claro como diferentes escolhas de design em frameworks
de agentes afetam a eficácia, e medir seu progresso continua sendo um desafio.
Neste trabalho, realizamos um estudo empírico sistemático no benchmark GAIA
e no BrowseComp para examinar o impacto de escolhas de design populares em componentes
chave de agentes de maneira justa e rigorosa. Descobrimos que a falta de um
protocolo de avaliação padrão torna trabalhos anteriores, mesmo os de código aberto,
não reproduzíveis, com uma variação significativa entre execuções aleatórias.
Portanto, introduzimos um protocolo de avaliação mais robusto para estabilizar as comparações.
Nosso estudo revela quais componentes e designs são cruciais para agentes eficazes,
enquanto outros são redundantes, apesar de parecerem lógicos. Com base em nossas descobertas,
construímos e disponibilizamos como código aberto o OAgents, um novo framework de agente
fundamental que alcança desempenho de ponta entre projetos de código aberto. O OAgents
oferece um design modular para vários componentes de agentes, promovendo pesquisas
futuras em IA Agente.
English
Recently, Agentic AI has become an increasingly popular research field.
However, we argue that current agent research practices lack standardization
and scientific rigor, making it hard to conduct fair comparisons among methods.
As a result, it is still unclear how different design choices in agent
frameworks affect effectiveness, and measuring their progress remains
challenging. In this work, we conduct a systematic empirical study on GAIA
benchmark and BrowseComp to examine the impact of popular design choices in key
agent components in a fair and rigorous manner. We find that the lack of a
standard evaluation protocol makes previous works, even open-sourced ones,
non-reproducible, with significant variance between random runs. Therefore, we
introduce a more robust evaluation protocol to stabilize comparisons. Our study
reveals which components and designs are crucial for effective agents, while
others are redundant, despite seeming logical. Based on our findings, we build
and open-source OAgents, a new foundation agent framework that achieves
state-of-the-art performance among open-source projects. OAgents offers a
modular design for various agent components, promoting future research in
Agentic AI.