OAgents: Eine empirische Studie zur Entwicklung effektiver Agenten
OAgents: An Empirical Study of Building Effective Agents
June 17, 2025
Autoren: He Zhu, Tianrui Qin, King Zhu, Heyuan Huang, Yeyi Guan, Jinxiang Xia, Yi Yao, Hanhao Li, Ningning Wang, Pai Liu, Tianhao Peng, Xin Gui, Xiaowan Li, Yuhui Liu, Yuchen Eleanor Jiang, Jun Wang, Changwang Zhang, Xiangru Tang, Ge Zhang, Jian Yang, Minghao Liu, Xitong Gao, Jiaheng Liu, Wangchunshu Zhou
cs.AI
Zusammenfassung
Kürzlich ist Agentic AI zu einem zunehmend populären Forschungsgebiet geworden.
Wir argumentieren jedoch, dass die aktuellen Forschungspraktiken im Bereich der Agenten an Standardisierung
und wissenschaftlicher Strenge mangeln, was faire Vergleiche zwischen Methoden erschwert.
Infolgedessen ist nach wie vor unklar, wie sich verschiedene Designentscheidungen in Agenten-
Frameworks auf die Effektivität auswirken, und die Messung ihrer Fortschritte bleibt
eine Herausforderung. In dieser Arbeit führen wir eine systematische empirische Studie zum GAIA-
Benchmark und BrowseComp durch, um die Auswirkungen beliebter Designentscheidungen in zentralen
Agentenkomponenten auf faire und rigorose Weise zu untersuchen. Wir stellen fest, dass das Fehlen eines
standardisierten Evaluationsprotokolls frühere Arbeiten, selbst Open-Source-Projekte, nicht reproduzierbar macht,
mit erheblichen Schwankungen zwischen zufälligen Durchläufen. Daher führen wir ein robusteres
Evaluationsprotokoll ein, um Vergleiche zu stabilisieren. Unsere Studie zeigt, welche Komponenten und Designs
für effektive Agenten entscheidend sind, während andere redundant sind, obwohl sie logisch erscheinen mögen.
Basierend auf unseren Erkenntnissen entwickeln und veröffentlichen wir OAgents, ein neues Foundation-Agenten-Framework,
das state-of-the-art-Leistungen unter Open-Source-Projekten erreicht. OAgents bietet ein
modulares Design für verschiedene Agentenkomponenten und fördert zukünftige Forschung in
Agentic AI.
English
Recently, Agentic AI has become an increasingly popular research field.
However, we argue that current agent research practices lack standardization
and scientific rigor, making it hard to conduct fair comparisons among methods.
As a result, it is still unclear how different design choices in agent
frameworks affect effectiveness, and measuring their progress remains
challenging. In this work, we conduct a systematic empirical study on GAIA
benchmark and BrowseComp to examine the impact of popular design choices in key
agent components in a fair and rigorous manner. We find that the lack of a
standard evaluation protocol makes previous works, even open-sourced ones,
non-reproducible, with significant variance between random runs. Therefore, we
introduce a more robust evaluation protocol to stabilize comparisons. Our study
reveals which components and designs are crucial for effective agents, while
others are redundant, despite seeming logical. Based on our findings, we build
and open-source OAgents, a new foundation agent framework that achieves
state-of-the-art performance among open-source projects. OAgents offers a
modular design for various agent components, promoting future research in
Agentic AI.