OAgents: Un estudio empírico sobre la construcción de agentes efectivos
OAgents: An Empirical Study of Building Effective Agents
June 17, 2025
Autores: He Zhu, Tianrui Qin, King Zhu, Heyuan Huang, Yeyi Guan, Jinxiang Xia, Yi Yao, Hanhao Li, Ningning Wang, Pai Liu, Tianhao Peng, Xin Gui, Xiaowan Li, Yuhui Liu, Yuchen Eleanor Jiang, Jun Wang, Changwang Zhang, Xiangru Tang, Ge Zhang, Jian Yang, Minghao Liu, Xitong Gao, Jiaheng Liu, Wangchunshu Zhou
cs.AI
Resumen
Recientemente, la IA Agente se ha convertido en un campo de investigación cada vez más popular. Sin embargo, argumentamos que las prácticas actuales de investigación en agentes carecen de estandarización y rigor científico, lo que dificulta realizar comparaciones justas entre métodos. Como resultado, aún no está claro cómo las diferentes decisiones de diseño en los marcos de agentes afectan su efectividad, y medir su progreso sigue siendo un desafío. En este trabajo, realizamos un estudio empírico sistemático en los benchmarks GAIA y BrowseComp para examinar el impacto de las decisiones de diseño populares en los componentes clave de los agentes de manera justa y rigurosa. Descubrimos que la falta de un protocolo de evaluación estándar hace que trabajos anteriores, incluso aquellos de código abierto, no sean reproducibles, con una variación significativa entre ejecuciones aleatorias. Por lo tanto, introducimos un protocolo de evaluación más robusto para estabilizar las comparaciones. Nuestro estudio revela qué componentes y diseños son cruciales para agentes efectivos, mientras que otros son redundantes, a pesar de parecer lógicos. Basándonos en nuestros hallazgos, construimos y publicamos OAgents, un nuevo marco de agente base que logra un rendimiento de vanguardia entre los proyectos de código abierto. OAgents ofrece un diseño modular para varios componentes de agentes, promoviendo futuras investigaciones en IA Agente.
English
Recently, Agentic AI has become an increasingly popular research field.
However, we argue that current agent research practices lack standardization
and scientific rigor, making it hard to conduct fair comparisons among methods.
As a result, it is still unclear how different design choices in agent
frameworks affect effectiveness, and measuring their progress remains
challenging. In this work, we conduct a systematic empirical study on GAIA
benchmark and BrowseComp to examine the impact of popular design choices in key
agent components in a fair and rigorous manner. We find that the lack of a
standard evaluation protocol makes previous works, even open-sourced ones,
non-reproducible, with significant variance between random runs. Therefore, we
introduce a more robust evaluation protocol to stabilize comparisons. Our study
reveals which components and designs are crucial for effective agents, while
others are redundant, despite seeming logical. Based on our findings, we build
and open-source OAgents, a new foundation agent framework that achieves
state-of-the-art performance among open-source projects. OAgents offers a
modular design for various agent components, promoting future research in
Agentic AI.