ChatPaper.aiChatPaper

IntellAgent : Un cadre multi-agent pour évaluer les systèmes d'IA conversationnelle

IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems

January 19, 2025
Auteurs: Elad Levi, Ilan Kadar
cs.AI

Résumé

Les grands modèles de langage (LLM) transforment l'intelligence artificielle, évoluant en systèmes orientés tâches capables de planification et d'exécution autonomes. L'une des principales applications des LLM est les systèmes d'IA conversationnelle, qui doivent naviguer dans des dialogues multi-tours, intégrer des API spécifiques au domaine et respecter des contraintes de politique strictes. Cependant, l'évaluation de ces agents reste un défi majeur, car les méthodes traditionnelles échouent à capturer la complexité et la variabilité des interactions réelles. Nous présentons IntellAgent, un cadre multi-agent évolutif et open-source conçu pour évaluer de manière exhaustive les systèmes d'IA conversationnelle. IntellAgent automatise la création de divers bancs d'essai synthétiques en combinant la modélisation de graphes pilotée par des politiques, la génération réaliste d'événements et les simulations interactives utilisateur-agent. Cette approche innovante fournit des diagnostics détaillés, abordant les limitations des bancs d'essai statiques et manuellement élaborés avec des métriques grossières. IntellAgent représente un changement de paradigme dans l'évaluation de l'IA conversationnelle. En simulant des scénarios multi-politiques réalistes à travers différents niveaux de complexité, IntellAgent capture l'interaction nuancée des capacités des agents et des contraintes de politique. Contrairement aux méthodes traditionnelles, il utilise un modèle de politique basé sur des graphes pour représenter les relations, les probabilités et les complexités des interactions de politique, permettant des diagnostics très détaillés. IntellAgent identifie également les écarts de performance critiques, offrant des aperçus exploitables pour une optimisation ciblée. Sa conception modulaire et open-source prend en charge une intégration transparente de nouveaux domaines, politiques et APIs, favorisant la reproductibilité et la collaboration communautaire. Nos résultats démontrent qu'IntellAgent constitue un cadre efficace pour faire progresser l'IA conversationnelle en relevant les défis de la transition entre la recherche et le déploiement. Le cadre est disponible sur https://github.com/plurai-ai/intellagent.
English
Large Language Models (LLMs) are transforming artificial intelligence, evolving into task-oriented systems capable of autonomous planning and execution. One of the primary applications of LLMs is conversational AI systems, which must navigate multi-turn dialogues, integrate domain-specific APIs, and adhere to strict policy constraints. However, evaluating these agents remains a significant challenge, as traditional methods fail to capture the complexity and variability of real-world interactions. We introduce IntellAgent, a scalable, open-source multi-agent framework designed to evaluate conversational AI systems comprehensively. IntellAgent automates the creation of diverse, synthetic benchmarks by combining policy-driven graph modeling, realistic event generation, and interactive user-agent simulations. This innovative approach provides fine-grained diagnostics, addressing the limitations of static and manually curated benchmarks with coarse-grained metrics. IntellAgent represents a paradigm shift in evaluating conversational AI. By simulating realistic, multi-policy scenarios across varying levels of complexity, IntellAgent captures the nuanced interplay of agent capabilities and policy constraints. Unlike traditional methods, it employs a graph-based policy model to represent relationships, likelihoods, and complexities of policy interactions, enabling highly detailed diagnostics. IntellAgent also identifies critical performance gaps, offering actionable insights for targeted optimization. Its modular, open-source design supports seamless integration of new domains, policies, and APIs, fostering reproducibility and community collaboration. Our findings demonstrate that IntellAgent serves as an effective framework for advancing conversational AI by addressing challenges in bridging research and deployment. The framework is available at https://github.com/plurai-ai/intellagent

Summary

AI-Generated Summary

PDF132January 23, 2025