CLEAR Agentivo: Automatizando a Avaliação em Múltiplos Níveis de Agentes de LLM

Resumo

Os sistemas agentivos estão se tornando mais capazes: agentes definem estratégias, tomam ações e interagem com diferentes ambientes. Essa autonomia impõe sérios desafios para a supervisão e avaliação do comportamento dos agentes. A maioria das ferramentas atuais é limitada, focando na observabilidade com capacidades básicas de avaliação ou impondo taxonomias estáticas e artesanais de erros que não conseguem se adaptar a novos domínios. Para preencher essa lacuna, apresentamos o Agentic CLEAR, um framework de avaliação automático, dinâmico e fácil de usar. Ele produz insights textuais sobre o comportamento do agente em três níveis de granularidade: sistema, traço e nó. O Agentic CLEAR opera acima da camada de observabilidade, permitindo integração perfeita e contando com uma interface de usuário intuitiva que torna a avaliação do agente altamente acessível. Em nossos experimentos com quatro benchmarks, sete configurações agentivas e dezenas de milhares de chamadas de LLM, mostramos que o Agentic CLEAR produz feedback de alta qualidade, orientado por dados e perspicaz. Nossa análise demonstra forte alinhamento com erros anotados por humanos e a capacidade de prever a taxa de sucesso das tarefas.

English

Agentic systems are becoming more capable: agents define strategies, take actions, and interact with different environments. This autonomy poses serious challenges for overseeing and assessing agent behavior. Most current tools are limited, focusing on observability with basic evaluation capabilities or imposing static, hand-crafted error taxonomies that cannot adapt to new domains. To address this gap, we present Agentic CLEAR, an automatic, dynamic, and easy-to-use evaluation framework. It produces textual insights into the agent behavior on three levels of granularity: system, trace, and node. Agentic CLEAR operates above the observability layer, enabling seamless integration and featuring an intuitive UI that makes agent evaluation highly accessible. In our experiments on four benchmarks, seven agentic settings, and tens of thousands of LLM calls, we show that Agentic CLEAR produces high-quality, data-driven, insightful feedback. Our analysis shows strong alignment with human-annotated errors and the ability to predict task success rate.