IntellAgent: Um Framework Multiagente para Avaliar Sistemas de IA Conversacional

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) estão transformando a inteligência artificial, evoluindo para sistemas orientados a tarefas capazes de planejamento e execução autônomos. Uma das principais aplicações dos LLMs é em sistemas de IA conversacional, os quais devem navegar em diálogos de múltiplas etapas, integrar APIs específicas de domínio e aderir a restrições de políticas rígidas. No entanto, avaliar esses agentes continua sendo um desafio significativo, uma vez que métodos tradicionais falham em capturar a complexidade e variabilidade das interações do mundo real. Apresentamos o IntellAgent, um framework multiagente escalável e de código aberto projetado para avaliar abrangente sistemas de IA conversacional. O IntellAgent automatiza a criação de diversos benchmarks sintéticos, combinando modelagem de gráficos orientada por políticas, geração realista de eventos e simulações interativas de usuário-agente. Esta abordagem inovadora fornece diagnósticos detalhados, abordando as limitações de benchmarks estáticos e manualmente curados com métricas de granularidade grosseira. O IntellAgent representa uma mudança de paradigma na avaliação de IA conversacional. Ao simular cenários realistas e multi-políticas em diferentes níveis de complexidade, o IntellAgent captura a interação sutil das capacidades do agente e das restrições de políticas. Ao contrário de métodos tradicionais, ele emprega um modelo de política baseado em gráficos para representar relacionamentos, probabilidades e complexidades de interações de políticas, possibilitando diagnósticos altamente detalhados. O IntellAgent também identifica lacunas críticas de desempenho, oferecendo insights acionáveis para otimização direcionada. Seu design modular e de código aberto suporta a integração perfeita de novos domínios, políticas e APIs, promovendo a reprodutibilidade e a colaboração comunitária. Nossas descobertas demonstram que o IntellAgent serve como um framework eficaz para avançar a IA conversacional ao abordar desafios na ponte entre pesquisa e implantação. O framework está disponível em https://github.com/plurai-ai/intellagent.

English

Large Language Models (LLMs) are transforming artificial intelligence, evolving into task-oriented systems capable of autonomous planning and execution. One of the primary applications of LLMs is conversational AI systems, which must navigate multi-turn dialogues, integrate domain-specific APIs, and adhere to strict policy constraints. However, evaluating these agents remains a significant challenge, as traditional methods fail to capture the complexity and variability of real-world interactions. We introduce IntellAgent, a scalable, open-source multi-agent framework designed to evaluate conversational AI systems comprehensively. IntellAgent automates the creation of diverse, synthetic benchmarks by combining policy-driven graph modeling, realistic event generation, and interactive user-agent simulations. This innovative approach provides fine-grained diagnostics, addressing the limitations of static and manually curated benchmarks with coarse-grained metrics. IntellAgent represents a paradigm shift in evaluating conversational AI. By simulating realistic, multi-policy scenarios across varying levels of complexity, IntellAgent captures the nuanced interplay of agent capabilities and policy constraints. Unlike traditional methods, it employs a graph-based policy model to represent relationships, likelihoods, and complexities of policy interactions, enabling highly detailed diagnostics. IntellAgent also identifies critical performance gaps, offering actionable insights for targeted optimization. Its modular, open-source design supports seamless integration of new domains, policies, and APIs, fostering reproducibility and community collaboration. Our findings demonstrate that IntellAgent serves as an effective framework for advancing conversational AI by addressing challenges in bridging research and deployment. The framework is available at https://github.com/plurai-ai/intellagent

IntellAgent: Um Framework Multiagente para Avaliar Sistemas de IA Conversacional

IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems

Resumo

Support