IntellAgent: Un Framework Multi-Agente per Valutare i Sistemi di Intelligenza Conversazionale AI

Abstract

I Large Language Models (LLM) stanno trasformando l'intelligenza artificiale, evolvendo in sistemi orientati al compito capaci di pianificazione ed esecuzione autonome. Una delle principali applicazioni dei LLM è rappresentata dai sistemi di intelligenza conversazionale, che devono navigare dialoghi multi-turno, integrare API specifiche del dominio e rispettare rigide restrizioni di policy. Tuttavia, valutare questi agenti rimane una sfida significativa, poiché i metodi tradizionali non riescono a catturare la complessità e la variabilità delle interazioni del mondo reale. Presentiamo IntellAgent, un framework multi-agente scalabile e open-source progettato per valutare in modo esaustivo i sistemi di intelligenza conversazionale. IntellAgent automatizza la creazione di diversi benchmark sintetici combinando la modellazione grafica guidata dalla policy, la generazione realistica di eventi e simulazioni interattive tra utente e agente. Questo approccio innovativo fornisce diagnostica dettagliata, affrontando le limitazioni dei benchmark statici e curati manualmente con metriche grossolane. IntellAgent rappresenta una svolta nel valutare l'intelligenza conversazionale. Simulando scenari multi-policy realistici attraverso diversi livelli di complessità, IntellAgent cattura l'interazione sfumata delle capacità degli agenti e delle restrizioni di policy. A differenza dei metodi tradizionali, utilizza un modello di policy basato su grafi per rappresentare relazioni, probabilità e complessità delle interazioni di policy, consentendo diagnostica altamente dettagliata. IntellAgent identifica inoltre lacune critiche nelle prestazioni, offrendo approfondimenti utili per ottimizzazioni mirate. Il suo design modulare e open-source supporta un'integrazione senza soluzione di continuità di nuovi domini, policy e API, promuovendo riproducibilità e collaborazione nella comunità. I nostri risultati dimostrano che IntellAgent funge da framework efficace per far progredire l'intelligenza conversazionale affrontando le sfide nel colmare la ricerca e la distribuzione. Il framework è disponibile su https://github.com/plurai-ai/intellagent.

English

Large Language Models (LLMs) are transforming artificial intelligence, evolving into task-oriented systems capable of autonomous planning and execution. One of the primary applications of LLMs is conversational AI systems, which must navigate multi-turn dialogues, integrate domain-specific APIs, and adhere to strict policy constraints. However, evaluating these agents remains a significant challenge, as traditional methods fail to capture the complexity and variability of real-world interactions. We introduce IntellAgent, a scalable, open-source multi-agent framework designed to evaluate conversational AI systems comprehensively. IntellAgent automates the creation of diverse, synthetic benchmarks by combining policy-driven graph modeling, realistic event generation, and interactive user-agent simulations. This innovative approach provides fine-grained diagnostics, addressing the limitations of static and manually curated benchmarks with coarse-grained metrics. IntellAgent represents a paradigm shift in evaluating conversational AI. By simulating realistic, multi-policy scenarios across varying levels of complexity, IntellAgent captures the nuanced interplay of agent capabilities and policy constraints. Unlike traditional methods, it employs a graph-based policy model to represent relationships, likelihoods, and complexities of policy interactions, enabling highly detailed diagnostics. IntellAgent also identifies critical performance gaps, offering actionable insights for targeted optimization. Its modular, open-source design supports seamless integration of new domains, policies, and APIs, fostering reproducibility and community collaboration. Our findings demonstrate that IntellAgent serves as an effective framework for advancing conversational AI by addressing challenges in bridging research and deployment. The framework is available at https://github.com/plurai-ai/intellagent

IntellAgent: Un Framework Multi-Agente per Valutare i Sistemi di Intelligenza Conversazionale AI

IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems

Abstract

Support