ChatPaper.aiChatPaper

Eine empirische Studie zu Testpraktiken in Open-Source-KI-Agenten-Frameworks und agentenbasierten Anwendungen

An Empirical Study of Testing Practices in Open Source AI Agent Frameworks and Agentic Applications

September 23, 2025
papers.authors: Mohammed Mehedi Hasan, Hao Li, Emad Fallahzadeh, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan
cs.AI

papers.abstract

KI-Agenten, die auf Foundation-Modellen (FM) basieren, werden zunehmend in verschiedenen Domänen eingesetzt, doch ihre inhärente Nicht-Determiniertheit und Nicht-Reproduzierbarkeit stellen Herausforderungen für das Testen und die Qualitätssicherung dar. Während aktuelle Benchmarks Aufgabenebenen-Evaluierungen bieten, gibt es nur begrenztes Verständnis darüber, wie Entwickler die interne Korrektheit dieser Agenten während der Entwicklung überprüfen. Um diese Lücke zu schließen, führen wir die erste groß angelegte empirische Studie zu Testpraktiken im Ökosystem von KI-Agenten durch, analysieren 39 Open-Source-Agenten-Frameworks und 439 agentische Anwendungen. Wir identifizieren zehn verschiedene Testmuster und stellen fest, dass neuartige, agentspezifische Methoden wie DeepEval selten verwendet werden (ca. 1 %), während traditionelle Muster wie Negativ- und Mitgliedschaftstests weit verbreitet sind, um die Unsicherheit von FMs zu bewältigen. Durch die Zuordnung dieser Muster zu kanonischen architektonischen Komponenten von Agenten-Frameworks und agentischen Anwendungen decken wir eine fundamentale Umkehrung des Testaufwands auf: deterministische Komponenten wie Ressourcenartefakte (Werkzeuge) und Koordinationsartefakte (Workflows) beanspruchen über 70 % des Testaufwands, während der FM-basierte Plan-Body weniger als 5 % erhält. Entscheidend ist, dass dies einen kritischen blinden Fleck offenbart, da die Trigger-Komponente (Prompts) vernachlässigt bleibt und in nur etwa 1 % aller Tests vorkommt. Unsere Ergebnisse bieten die erste empirische Testbasis für FM-basierte Agenten-Frameworks und agentische Anwendungen und zeigen eine rationale, aber unvollständige Anpassung an die Nicht-Determiniertheit. Um dies zu adressieren, sollten Framework-Entwickler die Unterstützung für neuartige Testmethoden verbessern, Anwendungsentwickler Prompt-Regressionstests einführen und Forscher Hindernisse für die Einführung untersuchen. Die Stärkung dieser Praktiken ist entscheidend für den Aufbau robusterer und zuverlässigerer KI-Agenten.
English
Foundation model (FM)-based AI agents are rapidly gaining adoption across diverse domains, but their inherent non-determinism and non-reproducibility pose testing and quality assurance challenges. While recent benchmarks provide task-level evaluations, there is limited understanding of how developers verify the internal correctness of these agents during development. To address this gap, we conduct the first large-scale empirical study of testing practices in the AI agent ecosystem, analyzing 39 open-source agent frameworks and 439 agentic applications. We identify ten distinct testing patterns and find that novel, agent-specific methods like DeepEval are seldom used (around 1%), while traditional patterns like negative and membership testing are widely adapted to manage FM uncertainty. By mapping these patterns to canonical architectural components of agent frameworks and agentic applications, we uncover a fundamental inversion of testing effort: deterministic components like Resource Artifacts (tools) and Coordination Artifacts (workflows) consume over 70% of testing effort, while the FM-based Plan Body receives less than 5%. Crucially, this reveals a critical blind spot, as the Trigger component (prompts) remains neglected, appearing in around 1% of all tests. Our findings offer the first empirical testing baseline in FM-based agent frameworks and agentic applications, revealing a rational but incomplete adaptation to non-determinism. To address it, framework developers should improve support for novel testing methods, application developers must adopt prompt regression testing, and researchers should explore barriers to adoption. Strengthening these practices is vital for building more robust and dependable AI agents.
PDF32October 2, 2025