IntellAgent: 会話型AIシステムを評価するためのマルチエージェントフレームワーク
IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems
January 19, 2025
著者: Elad Levi, Ilan Kadar
cs.AI
要旨
大規模言語モデル(LLMs)は人工知能を変革し、自律的な計画と実行が可能なタスク指向システムに進化しています。LLMsの主要な応用の1つは、会話型AIシステムであり、複数のターンの対話をナビゲートし、特定のドメイン固有のAPIを統合し、厳格なポリシー制約に従う必要があります。しかし、これらのエージェントを評価することは依然として大きな課題であり、従来の方法では実世界の相互作用の複雑さと変動性を捉えることができません。私たちは、包括的に会話型AIシステムを評価するために設計されたスケーラブルでオープンソースのマルチエージェントフレームワークであるIntellAgentを紹介します。IntellAgentは、ポリシーに基づくグラフモデリング、リアルなイベント生成、対話型ユーザーエージェントシミュレーションを組み合わせることで、多様で合成的なベンチマークの作成を自動化します。この革新的なアプローチは、静的で手動でキュレーションされたベンチマークの粗いメトリクスの制限に対処する細かい診断を提供します。IntellAgentは、会話型AIを評価する上でのパラダイムシフトを表しています。実際の複数ポリシーのシナリオをさまざまな複雑さレベルでシミュレートすることで、IntellAgentはエージェントの能力とポリシー制約の微妙な相互作用を捉えます。従来の方法とは異なり、IntellAgentは関係、尤度、およびポリシー相互作用の複雑さを表すためにグラフベースのポリシーモデルを使用し、高度な詳細な診断を可能にします。IntellAgentはまた、重要なパフォーマンスのギャップを特定し、ターゲットとなる最適化のための実用的な洞察を提供します。そのモジュラーでオープンソースの設計は、新しいドメイン、ポリシー、およびAPIのシームレスな統合をサポートし、再現性とコミュニティの協力を促進します。私たちの調査結果は、IntellAgentが研究と展開を結びつける課題に取り組むことで、会話型AIの進歩のための効果的なフレームワークとして機能することを示しています。このフレームワークは、https://github.com/plurai-ai/intellagent で入手可能です。
English
Large Language Models (LLMs) are transforming artificial intelligence,
evolving into task-oriented systems capable of autonomous planning and
execution. One of the primary applications of LLMs is conversational AI
systems, which must navigate multi-turn dialogues, integrate domain-specific
APIs, and adhere to strict policy constraints. However, evaluating these agents
remains a significant challenge, as traditional methods fail to capture the
complexity and variability of real-world interactions. We introduce
IntellAgent, a scalable, open-source multi-agent framework designed to evaluate
conversational AI systems comprehensively. IntellAgent automates the creation
of diverse, synthetic benchmarks by combining policy-driven graph modeling,
realistic event generation, and interactive user-agent simulations. This
innovative approach provides fine-grained diagnostics, addressing the
limitations of static and manually curated benchmarks with coarse-grained
metrics. IntellAgent represents a paradigm shift in evaluating conversational
AI. By simulating realistic, multi-policy scenarios across varying levels of
complexity, IntellAgent captures the nuanced interplay of agent capabilities
and policy constraints. Unlike traditional methods, it employs a graph-based
policy model to represent relationships, likelihoods, and complexities of
policy interactions, enabling highly detailed diagnostics. IntellAgent also
identifies critical performance gaps, offering actionable insights for targeted
optimization. Its modular, open-source design supports seamless integration of
new domains, policies, and APIs, fostering reproducibility and community
collaboration. Our findings demonstrate that IntellAgent serves as an effective
framework for advancing conversational AI by addressing challenges in bridging
research and deployment. The framework is available at
https://github.com/plurai-ai/intellagentSummary
AI-Generated Summary