ChatPaper.aiChatPaper

CLEAR: Análise de Erros Facilitada por LLM-como-Juiz

CLEAR: Error Analysis via LLM-as-a-Judge Made Easy

July 24, 2025
Autores: Asaf Yehudai, Lilach Eden, Yotam Perlitz, Roy Bar-Haim, Michal Shmueli-Scheuer
cs.AI

Resumo

A avaliação de Modelos de Linguagem de Grande Escala (LLMs) está cada vez mais dependente de outros LLMs atuando como juízes. No entanto, os paradigmas de avaliação atuais geralmente produzem uma única pontuação ou classificação, respondendo qual modelo é melhor, mas não o porquê. Embora essenciais para benchmarking, essas pontuações de alto nível obscurecem as razões específicas e acionáveis por trás do desempenho de um modelo. Para preencher essa lacuna, introduzimos o CLEAR, um pacote interativo e de código aberto para análise de erros baseada em LLMs. O CLEAR primeiro gera feedback textual por instância, em seguida, cria um conjunto de problemas de erro em nível de sistema e quantifica a prevalência de cada problema identificado. Nosso pacote também fornece aos usuários um painel interativo que permite uma análise abrangente de erros por meio de visualizações agregadas, aplica filtros interativos para isolar problemas específicos ou faixas de pontuação e detalha as instâncias individuais que exemplificam um padrão comportamental particular. Demonstramos a análise do CLEAR para benchmarks de RAG e Matemática e destacamos sua utilidade por meio de um estudo de caso com usuários.
English
The evaluation of Large Language Models (LLMs) increasingly relies on other LLMs acting as judges. However, current evaluation paradigms typically yield a single score or ranking, answering which model is better but not why. While essential for benchmarking, these top-level scores obscure the specific, actionable reasons behind a model's performance. To bridge this gap, we introduce CLEAR, an interactive, open-source package for LLM-based error analysis. CLEAR first generates per-instance textual feedback, then it creates a set of system-level error issues, and quantifies the prevalence of each identified issue. Our package also provides users with an interactive dashboard that allows for a comprehensive error analysis through aggregate visualizations, applies interactive filters to isolate specific issues or score ranges, and drills down to the individual instances that exemplify a particular behavioral pattern. We demonstrate CLEAR analysis for RAG and Math benchmarks, and showcase its utility through a user case study.
PDF152July 28, 2025