Uno Studio Empirico sulle Pratiche di Test nei Framework di Agenti AI Open Source e nelle Applicazioni Agenti
An Empirical Study of Testing Practices in Open Source AI Agent Frameworks and Agentic Applications
September 23, 2025
Autori: Mohammed Mehedi Hasan, Hao Li, Emad Fallahzadeh, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan
cs.AI
Abstract
Gli agenti AI basati su modelli di fondazione (Foundation Models, FM) stanno rapidamente guadagnando adozione in diversi domini, ma la loro intrinseca non-deterministicità e non-riproducibilità pongono sfide significative per il testing e l'assicurazione della qualità. Sebbene recenti benchmark forniscano valutazioni a livello di task, c'è una comprensione limitata di come gli sviluppatori verifichino la correttezza interna di questi agenti durante lo sviluppo.
Per colmare questa lacuna, abbiamo condotto il primo studio empirico su larga scala delle pratiche di testing nell'ecosistema degli agenti AI, analizzando 39 framework open-source per agenti e 439 applicazioni agentiche. Abbiamo identificato dieci distinti pattern di testing e riscontrato che metodi innovativi e specifici per gli agenti, come DeepEval, sono raramente utilizzati (circa l'1%), mentre pattern tradizionali come il testing negativo e il testing di appartenenza sono ampiamente adattati per gestire l'incertezza dei FM. Mappando questi pattern ai componenti architetturali canonici dei framework per agenti e delle applicazioni agentiche, abbiamo scoperto un'inversione fondamentale dello sforzo di testing: componenti deterministici come gli Artifatti di Risorse (strumenti) e gli Artifatti di Coordinamento (workflow) assorbono oltre il 70% dello sforzo di testing, mentre il Plan Body basato su FM riceve meno del 5%. In modo cruciale, ciò rivela un punto cieco critico, poiché il componente Trigger (prompt) rimane trascurato, comparendo in circa l'1% di tutti i test.
Le nostre scoperte offrono la prima baseline empirica di testing nei framework per agenti basati su FM e nelle applicazioni agentiche, rivelando un adattamento razionale ma incompleto alla non-deterministicità. Per affrontare questa problematica, gli sviluppatori di framework dovrebbero migliorare il supporto per metodi di testing innovativi, gli sviluppatori di applicazioni devono adottare il regression testing dei prompt e i ricercatori dovrebbero esplorare le barriere all'adozione. Rafforzare queste pratiche è fondamentale per costruire agenti AI più robusti e affidabili.
English
Foundation model (FM)-based AI agents are rapidly gaining adoption across
diverse domains, but their inherent non-determinism and non-reproducibility
pose testing and quality assurance challenges. While recent benchmarks provide
task-level evaluations, there is limited understanding of how developers verify
the internal correctness of these agents during development.
To address this gap, we conduct the first large-scale empirical study of
testing practices in the AI agent ecosystem, analyzing 39 open-source agent
frameworks and 439 agentic applications. We identify ten distinct testing
patterns and find that novel, agent-specific methods like DeepEval are seldom
used (around 1%), while traditional patterns like negative and membership
testing are widely adapted to manage FM uncertainty. By mapping these patterns
to canonical architectural components of agent frameworks and agentic
applications, we uncover a fundamental inversion of testing effort:
deterministic components like Resource Artifacts (tools) and Coordination
Artifacts (workflows) consume over 70% of testing effort, while the FM-based
Plan Body receives less than 5%. Crucially, this reveals a critical blind spot,
as the Trigger component (prompts) remains neglected, appearing in around 1% of
all tests.
Our findings offer the first empirical testing baseline in FM-based agent
frameworks and agentic applications, revealing a rational but incomplete
adaptation to non-determinism. To address it, framework developers should
improve support for novel testing methods, application developers must adopt
prompt regression testing, and researchers should explore barriers to adoption.
Strengthening these practices is vital for building more robust and dependable
AI agents.