オープンソースAIエージェントフレームワークとエージェントアプリケーションにおけるテスト実践の実証研究
An Empirical Study of Testing Practices in Open Source AI Agent Frameworks and Agentic Applications
September 23, 2025
著者: Mohammed Mehedi Hasan, Hao Li, Emad Fallahzadeh, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan
cs.AI
要旨
ファウンデーションモデル(FM)ベースのAIエージェントは、多様な領域で急速に採用が進んでいるが、その本質的な非決定性と再現性の欠如が、テストと品質保証における課題を引き起こしている。最近のベンチマークはタスクレベルの評価を提供しているものの、開発者がこれらのエージェントの内部的な正確性を開発中にどのように検証しているかについての理解は限られている。
このギャップを埋めるため、我々はAIエージェントエコシステムにおけるテスト実践に関する初の大規模な実証研究を実施し、39のオープンソースエージェントフレームワークと439のエージェントアプリケーションを分析した。その結果、10の異なるテストパターンを特定し、DeepEvalのような新しいエージェント固有の手法がほとんど使用されていない(約1%)一方で、FMの不確実性を管理するためにネガティブテストやメンバーシップテストのような伝統的なパターンが広く適応されていることを発見した。これらのパターンをエージェントフレームワークとエージェントアプリケーションの標準的なアーキテクチャコンポーネントにマッピングすることで、テスト努力の根本的な逆転を明らかにした:リソースアーティファクト(ツール)やコーディネーションアーティファクト(ワークフロー)のような決定論的コンポーネントがテスト努力の70%以上を占めるのに対し、FMベースのプランボディは5%未満しか受けていない。特に重要なのは、トリガーコンポーネント(プロンプト)が無視されており、全テストの約1%にしか現れないという点である。
我々の調査結果は、FMベースのエージェントフレームワークとエージェントアプリケーションにおける初の実証的テストベースラインを提供し、非決定性に対する合理的だが不完全な適応を明らかにしている。これを改善するため、フレームワーク開発者は新しいテスト手法のサポートを強化し、アプリケーション開発者はプロンプト回帰テストを採用し、研究者は採用の障壁を探るべきである。これらの実践を強化することは、より堅牢で信頼性の高いAIエージェントを構築するために不可欠である。
English
Foundation model (FM)-based AI agents are rapidly gaining adoption across
diverse domains, but their inherent non-determinism and non-reproducibility
pose testing and quality assurance challenges. While recent benchmarks provide
task-level evaluations, there is limited understanding of how developers verify
the internal correctness of these agents during development.
To address this gap, we conduct the first large-scale empirical study of
testing practices in the AI agent ecosystem, analyzing 39 open-source agent
frameworks and 439 agentic applications. We identify ten distinct testing
patterns and find that novel, agent-specific methods like DeepEval are seldom
used (around 1%), while traditional patterns like negative and membership
testing are widely adapted to manage FM uncertainty. By mapping these patterns
to canonical architectural components of agent frameworks and agentic
applications, we uncover a fundamental inversion of testing effort:
deterministic components like Resource Artifacts (tools) and Coordination
Artifacts (workflows) consume over 70% of testing effort, while the FM-based
Plan Body receives less than 5%. Crucially, this reveals a critical blind spot,
as the Trigger component (prompts) remains neglected, appearing in around 1% of
all tests.
Our findings offer the first empirical testing baseline in FM-based agent
frameworks and agentic applications, revealing a rational but incomplete
adaptation to non-determinism. To address it, framework developers should
improve support for novel testing methods, application developers must adopt
prompt regression testing, and researchers should explore barriers to adoption.
Strengthening these practices is vital for building more robust and dependable
AI agents.