ChatPaper.aiChatPaper

Une étude empirique des pratiques de test dans les frameworks d'agents IA open source et les applications agentiques

An Empirical Study of Testing Practices in Open Source AI Agent Frameworks and Agentic Applications

September 23, 2025
papers.authors: Mohammed Mehedi Hasan, Hao Li, Emad Fallahzadeh, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan
cs.AI

papers.abstract

Les agents d'IA basés sur des modèles de fondation (Foundation Models, FM) connaissent une adoption rapide dans divers domaines, mais leur non-déterminisme et leur non-reproductibilité intrinsèques posent des défis en matière de tests et d'assurance qualité. Bien que des benchmarks récents fournissent des évaluations au niveau des tâches, la compréhension de la manière dont les développeurs vérifient la justesse interne de ces agents pendant le développement reste limitée. Pour combler cette lacune, nous menons la première étude empirique à grande échelle sur les pratiques de test dans l'écosystème des agents d'IA, en analysant 39 frameworks d'agents open source et 439 applications agentiques. Nous identifions dix modèles de test distincts et constatons que des méthodes spécifiques aux agents, comme DeepEval, sont rarement utilisées (environ 1 %), tandis que des modèles traditionnels comme les tests négatifs et d'appartenance sont largement adaptés pour gérer l'incertitude des FM. En cartographiant ces modèles sur les composants architecturaux canoniques des frameworks d'agents et des applications agentiques, nous révélons une inversion fondamentale de l'effort de test : les composants déterministes comme les artefacts de ressources (outils) et les artefacts de coordination (workflows) consomment plus de 70 % de l'effort de test, tandis que le corps de plan basé sur les FM reçoit moins de 5 %. De manière cruciale, cela met en lumière un angle mort critique, car le composant de déclenchement (prompts) reste négligé, apparaissant dans environ 1 % de tous les tests. Nos résultats offrent le premier référentiel empirique de test dans les frameworks d'agents et les applications agentiques basés sur les FM, révélant une adaptation rationnelle mais incomplète au non-déterminisme. Pour y remédier, les développeurs de frameworks devraient améliorer le support des méthodes de test innovantes, les développeurs d'applications doivent adopter des tests de régression des prompts, et les chercheurs devraient explorer les freins à l'adoption. Renforcer ces pratiques est essentiel pour construire des agents d'IA plus robustes et fiables.
English
Foundation model (FM)-based AI agents are rapidly gaining adoption across diverse domains, but their inherent non-determinism and non-reproducibility pose testing and quality assurance challenges. While recent benchmarks provide task-level evaluations, there is limited understanding of how developers verify the internal correctness of these agents during development. To address this gap, we conduct the first large-scale empirical study of testing practices in the AI agent ecosystem, analyzing 39 open-source agent frameworks and 439 agentic applications. We identify ten distinct testing patterns and find that novel, agent-specific methods like DeepEval are seldom used (around 1%), while traditional patterns like negative and membership testing are widely adapted to manage FM uncertainty. By mapping these patterns to canonical architectural components of agent frameworks and agentic applications, we uncover a fundamental inversion of testing effort: deterministic components like Resource Artifacts (tools) and Coordination Artifacts (workflows) consume over 70% of testing effort, while the FM-based Plan Body receives less than 5%. Crucially, this reveals a critical blind spot, as the Trigger component (prompts) remains neglected, appearing in around 1% of all tests. Our findings offer the first empirical testing baseline in FM-based agent frameworks and agentic applications, revealing a rational but incomplete adaptation to non-determinism. To address it, framework developers should improve support for novel testing methods, application developers must adopt prompt regression testing, and researchers should explore barriers to adoption. Strengthening these practices is vital for building more robust and dependable AI agents.
PDF32October 2, 2025