ChatPaper.aiChatPaper

Um Estudo Empírico das Práticas de Teste em Frameworks de Agentes de IA de Código Aberto e Aplicações Agênticas

An Empirical Study of Testing Practices in Open Source AI Agent Frameworks and Agentic Applications

September 23, 2025
Autores: Mohammed Mehedi Hasan, Hao Li, Emad Fallahzadeh, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan
cs.AI

Resumo

Agentes de IA baseados em modelos de fundação (Foundation Models - FMs) estão ganhando rápida adoção em diversos domínios, mas seu caráter inerentemente não determinístico e não reprodutivo apresenta desafios para testes e garantia de qualidade. Embora benchmarks recentes forneçam avaliações em nível de tarefa, há uma compreensão limitada de como os desenvolvedores verificam a correção interna desses agentes durante o desenvolvimento. Para abordar essa lacuna, realizamos o primeiro estudo empírico em larga escala sobre práticas de teste no ecossistema de agentes de IA, analisando 39 frameworks de agentes de código aberto e 439 aplicações agentivas. Identificamos dez padrões distintos de teste e descobrimos que métodos novos e específicos para agentes, como o DeepEval, são raramente utilizados (cerca de 1%), enquanto padrões tradicionais, como testes negativos e de pertinência, são amplamente adaptados para lidar com a incerteza dos FMs. Ao mapear esses padrões para componentes arquitetônicos canônicos de frameworks de agentes e aplicações agentivas, revelamos uma inversão fundamental no esforço de teste: componentes determinísticos, como Artefatos de Recursos (ferramentas) e Artefatos de Coordenação (fluxos de trabalho), consomem mais de 70% do esforço de teste, enquanto o Corpo do Plano baseado em FM recebe menos de 5%. Crucialmente, isso revela um ponto cego crítico, já que o componente de Gatilho (prompts) permanece negligenciado, aparecendo em cerca de 1% de todos os testes. Nossas descobertas oferecem a primeira linha de base empírica de teste em frameworks de agentes e aplicações agentivas baseados em FMs, revelando uma adaptação racional, mas incompleta, ao não determinismo. Para enfrentar isso, desenvolvedores de frameworks devem melhorar o suporte a métodos de teste inovadores, desenvolvedores de aplicações precisam adotar testes de regressão de prompts, e pesquisadores devem explorar barreiras à adoção. Fortalecer essas práticas é vital para a construção de agentes de IA mais robustos e confiáveis.
English
Foundation model (FM)-based AI agents are rapidly gaining adoption across diverse domains, but their inherent non-determinism and non-reproducibility pose testing and quality assurance challenges. While recent benchmarks provide task-level evaluations, there is limited understanding of how developers verify the internal correctness of these agents during development. To address this gap, we conduct the first large-scale empirical study of testing practices in the AI agent ecosystem, analyzing 39 open-source agent frameworks and 439 agentic applications. We identify ten distinct testing patterns and find that novel, agent-specific methods like DeepEval are seldom used (around 1%), while traditional patterns like negative and membership testing are widely adapted to manage FM uncertainty. By mapping these patterns to canonical architectural components of agent frameworks and agentic applications, we uncover a fundamental inversion of testing effort: deterministic components like Resource Artifacts (tools) and Coordination Artifacts (workflows) consume over 70% of testing effort, while the FM-based Plan Body receives less than 5%. Crucially, this reveals a critical blind spot, as the Trigger component (prompts) remains neglected, appearing in around 1% of all tests. Our findings offer the first empirical testing baseline in FM-based agent frameworks and agentic applications, revealing a rational but incomplete adaptation to non-determinism. To address it, framework developers should improve support for novel testing methods, application developers must adopt prompt regression testing, and researchers should explore barriers to adoption. Strengthening these practices is vital for building more robust and dependable AI agents.
PDF32October 2, 2025