ChatPaper.aiChatPaper

Эмпирическое исследование практик тестирования в фреймворках открытого исходного кода для ИИ-агентов и агентных приложений

An Empirical Study of Testing Practices in Open Source AI Agent Frameworks and Agentic Applications

September 23, 2025
Авторы: Mohammed Mehedi Hasan, Hao Li, Emad Fallahzadeh, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan
cs.AI

Аннотация

AI-агенты на основе базовых моделей (Foundation Models, FM) быстро находят применение в различных областях, но их присущая недетерминированность и невоспроизводимость создают проблемы для тестирования и обеспечения качества. Хотя современные бенчмарки предоставляют оценки на уровне задач, остается мало понимания того, как разработчики проверяют внутреннюю корректность этих агентов в процессе разработки. Чтобы устранить этот пробел, мы провели первое крупномасштабное эмпирическое исследование практик тестирования в экосистеме AI-агентов, проанализировав 39 фреймворков с открытым исходным кодом и 439 агентных приложений. Мы выявили десять различных шаблонов тестирования и обнаружили, что новые, специфичные для агентов методы, такие как DeepEval, используются крайне редко (около 1%), в то время как традиционные подходы, такие как негативное тестирование и тестирование принадлежности, широко адаптируются для управления неопределенностью FM. Сопоставив эти шаблоны с каноническими архитектурными компонентами фреймворков и агентных приложений, мы обнаружили фундаментальное смещение усилий по тестированию: детерминированные компоненты, такие как Ресурсные Артефакты (инструменты) и Координационные Артефакты (рабочие процессы), поглощают более 70% усилий по тестированию, в то время как FM-основанный План (Plan Body) получает менее 5%. Это выявляет критическую слепую зону, поскольку компонент Триггер (промпты) остается практически незатронутым, появляясь лишь в около 1% всех тестов. Наши результаты предлагают первую эмпирическую базу для тестирования в FM-основанных фреймворках и агентных приложениях, демонстрируя рациональную, но неполную адаптацию к недетерминированности. Для устранения этого пробела разработчикам фреймворков следует улучшить поддержку новых методов тестирования, разработчикам приложений необходимо внедрить регрессионное тестирование промптов, а исследователям — изучить барьеры для их внедрения. Укрепление этих практик имеет ключевое значение для создания более надежных и устойчивых AI-агентов.
English
Foundation model (FM)-based AI agents are rapidly gaining adoption across diverse domains, but their inherent non-determinism and non-reproducibility pose testing and quality assurance challenges. While recent benchmarks provide task-level evaluations, there is limited understanding of how developers verify the internal correctness of these agents during development. To address this gap, we conduct the first large-scale empirical study of testing practices in the AI agent ecosystem, analyzing 39 open-source agent frameworks and 439 agentic applications. We identify ten distinct testing patterns and find that novel, agent-specific methods like DeepEval are seldom used (around 1%), while traditional patterns like negative and membership testing are widely adapted to manage FM uncertainty. By mapping these patterns to canonical architectural components of agent frameworks and agentic applications, we uncover a fundamental inversion of testing effort: deterministic components like Resource Artifacts (tools) and Coordination Artifacts (workflows) consume over 70% of testing effort, while the FM-based Plan Body receives less than 5%. Crucially, this reveals a critical blind spot, as the Trigger component (prompts) remains neglected, appearing in around 1% of all tests. Our findings offer the first empirical testing baseline in FM-based agent frameworks and agentic applications, revealing a rational but incomplete adaptation to non-determinism. To address it, framework developers should improve support for novel testing methods, application developers must adopt prompt regression testing, and researchers should explore barriers to adoption. Strengthening these practices is vital for building more robust and dependable AI agents.
PDF32October 2, 2025