ChatPaper.aiChatPaper

CLEAR: Análisis de errores mediante LLM-como-Juez simplificado

CLEAR: Error Analysis via LLM-as-a-Judge Made Easy

July 24, 2025
Autores: Asaf Yehudai, Lilach Eden, Yotam Perlitz, Roy Bar-Haim, Michal Shmueli-Scheuer
cs.AI

Resumen

La evaluación de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) depende cada vez más de otros LLMs que actúan como jueces. Sin embargo, los paradigmas de evaluación actuales suelen generar una única puntuación o clasificación, respondiendo cuál modelo es mejor pero no por qué. Aunque esenciales para la comparativa, estas puntuaciones generales ocultan las razones específicas y accionables detrás del rendimiento de un modelo. Para cerrar esta brecha, presentamos CLEAR, un paquete interactivo y de código abierto para el análisis de errores basado en LLMs. CLEAR primero genera comentarios textuales por instancia, luego crea un conjunto de problemas de errores a nivel del sistema y cuantifica la prevalencia de cada problema identificado. Nuestro paquete también proporciona a los usuarios un panel interactivo que permite un análisis exhaustivo de errores mediante visualizaciones agregadas, aplica filtros interactivos para aislar problemas específicos o rangos de puntuación, y profundiza en las instancias individuales que ejemplifican un patrón de comportamiento particular. Demostramos el análisis de CLEAR para puntos de referencia de RAG y Matemáticas, y mostramos su utilidad a través de un estudio de caso de usuario.
English
The evaluation of Large Language Models (LLMs) increasingly relies on other LLMs acting as judges. However, current evaluation paradigms typically yield a single score or ranking, answering which model is better but not why. While essential for benchmarking, these top-level scores obscure the specific, actionable reasons behind a model's performance. To bridge this gap, we introduce CLEAR, an interactive, open-source package for LLM-based error analysis. CLEAR first generates per-instance textual feedback, then it creates a set of system-level error issues, and quantifies the prevalence of each identified issue. Our package also provides users with an interactive dashboard that allows for a comprehensive error analysis through aggregate visualizations, applies interactive filters to isolate specific issues or score ranges, and drills down to the individual instances that exemplify a particular behavioral pattern. We demonstrate CLEAR analysis for RAG and Math benchmarks, and showcase its utility through a user case study.
PDF152July 28, 2025