ChatPaper.aiChatPaper

Un Estudio Empírico de las Prácticas de Pruebas en Frameworks de Agentes de IA de Código Abierto y Aplicaciones Agénticas

An Empirical Study of Testing Practices in Open Source AI Agent Frameworks and Agentic Applications

September 23, 2025
Autores: Mohammed Mehedi Hasan, Hao Li, Emad Fallahzadeh, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan
cs.AI

Resumen

Los agentes de IA basados en modelos fundacionales (FM) están ganando adopción rápidamente en diversos dominios, pero su inherente no-determinismo y no-reproducibilidad plantean desafíos en pruebas y garantía de calidad. Aunque los benchmarks recientes proporcionan evaluaciones a nivel de tareas, existe un entendimiento limitado sobre cómo los desarrolladores verifican la corrección interna de estos agentes durante el desarrollo. Para abordar esta brecha, realizamos el primer estudio empírico a gran escala sobre prácticas de pruebas en el ecosistema de agentes de IA, analizando 39 frameworks de agentes de código abierto y 439 aplicaciones agentivas. Identificamos diez patrones de pruebas distintos y encontramos que métodos novedosos y específicos para agentes, como DeepEval, rara vez se utilizan (alrededor del 1%), mientras que patrones tradicionales como pruebas negativas y de pertenencia se adaptan ampliamente para gestionar la incertidumbre de los FM. Al mapear estos patrones con los componentes arquitectónicos canónicos de los frameworks de agentes y las aplicaciones agentivas, descubrimos una inversión fundamental en el esfuerzo de pruebas: componentes deterministas como Artefactos de Recursos (herramientas) y Artefactos de Coordinación (flujos de trabajo) consumen más del 70% del esfuerzo de pruebas, mientras que el Cuerpo del Plan basado en FM recibe menos del 5%. Crucialmente, esto revela un punto ciego crítico, ya que el componente de Disparador (prompts) permanece descuidado, apareciendo en alrededor del 1% de todas las pruebas. Nuestros hallazgos ofrecen la primera línea base empírica de pruebas en frameworks de agentes y aplicaciones agentivas basadas en FM, revelando una adaptación racional pero incompleta al no-determinismo. Para abordarlo, los desarrolladores de frameworks deberían mejorar el soporte para métodos de pruebas novedosos, los desarrolladores de aplicaciones deben adoptar pruebas de regresión de prompts, y los investigadores deberían explorar las barreras para su adopción. Fortalecer estas prácticas es vital para construir agentes de IA más robustos y confiables.
English
Foundation model (FM)-based AI agents are rapidly gaining adoption across diverse domains, but their inherent non-determinism and non-reproducibility pose testing and quality assurance challenges. While recent benchmarks provide task-level evaluations, there is limited understanding of how developers verify the internal correctness of these agents during development. To address this gap, we conduct the first large-scale empirical study of testing practices in the AI agent ecosystem, analyzing 39 open-source agent frameworks and 439 agentic applications. We identify ten distinct testing patterns and find that novel, agent-specific methods like DeepEval are seldom used (around 1%), while traditional patterns like negative and membership testing are widely adapted to manage FM uncertainty. By mapping these patterns to canonical architectural components of agent frameworks and agentic applications, we uncover a fundamental inversion of testing effort: deterministic components like Resource Artifacts (tools) and Coordination Artifacts (workflows) consume over 70% of testing effort, while the FM-based Plan Body receives less than 5%. Crucially, this reveals a critical blind spot, as the Trigger component (prompts) remains neglected, appearing in around 1% of all tests. Our findings offer the first empirical testing baseline in FM-based agent frameworks and agentic applications, revealing a rational but incomplete adaptation to non-determinism. To address it, framework developers should improve support for novel testing methods, application developers must adopt prompt regression testing, and researchers should explore barriers to adoption. Strengthening these practices is vital for building more robust and dependable AI agents.
PDF32October 2, 2025