CLEAR: Analisi degli Errori Semplificata con LLM come Giudice
CLEAR: Error Analysis via LLM-as-a-Judge Made Easy
July 24, 2025
Autori: Asaf Yehudai, Lilach Eden, Yotam Perlitz, Roy Bar-Haim, Michal Shmueli-Scheuer
cs.AI
Abstract
La valutazione dei Large Language Models (LLM) si basa sempre più sull'uso di altri LLM come giudici. Tuttavia, i paradigmi di valutazione attuali producono tipicamente un punteggio singolo o una classifica, rispondendo a quale modello sia migliore ma non al perché. Sebbene essenziali per il benchmarking, questi punteggi di alto livello oscurano le ragioni specifiche e azionabili dietro le prestazioni di un modello. Per colmare questa lacuna, introduciamo CLEAR, un pacchetto open-source e interattivo per l'analisi degli errori basata su LLM. CLEAR genera prima un feedback testuale per ogni istanza, poi crea un insieme di problemi di errore a livello di sistema e quantifica la prevalenza di ciascun problema identificato. Il nostro pacchetto fornisce inoltre agli utenti una dashboard interattiva che consente un'analisi completa degli errori attraverso visualizzazioni aggregate, applica filtri interattivi per isolare problemi specifici o intervalli di punteggio e approfondisce le singole istanze che esemplificano un particolare schema comportamentale. Dimostriamo l'analisi di CLEAR per benchmark RAG e di matematica e ne illustriamo l'utilità attraverso uno studio di caso con utenti.
English
The evaluation of Large Language Models (LLMs) increasingly relies on other
LLMs acting as judges. However, current evaluation paradigms typically yield a
single score or ranking, answering which model is better but not why. While
essential for benchmarking, these top-level scores obscure the specific,
actionable reasons behind a model's performance. To bridge this gap, we
introduce CLEAR, an interactive, open-source package for LLM-based error
analysis. CLEAR first generates per-instance textual feedback, then it creates
a set of system-level error issues, and quantifies the prevalence of each
identified issue. Our package also provides users with an interactive dashboard
that allows for a comprehensive error analysis through aggregate
visualizations, applies interactive filters to isolate specific issues or score
ranges, and drills down to the individual instances that exemplify a particular
behavioral pattern. We demonstrate CLEAR analysis for RAG and Math benchmarks,
and showcase its utility through a user case study.