CLEAR: Analisi degli Errori Semplificata con LLM come Giudice

Abstract

La valutazione dei Large Language Models (LLM) si basa sempre più sull'uso di altri LLM come giudici. Tuttavia, i paradigmi di valutazione attuali producono tipicamente un punteggio singolo o una classifica, rispondendo a quale modello sia migliore ma non al perché. Sebbene essenziali per il benchmarking, questi punteggi di alto livello oscurano le ragioni specifiche e azionabili dietro le prestazioni di un modello. Per colmare questa lacuna, introduciamo CLEAR, un pacchetto open-source e interattivo per l'analisi degli errori basata su LLM. CLEAR genera prima un feedback testuale per ogni istanza, poi crea un insieme di problemi di errore a livello di sistema e quantifica la prevalenza di ciascun problema identificato. Il nostro pacchetto fornisce inoltre agli utenti una dashboard interattiva che consente un'analisi completa degli errori attraverso visualizzazioni aggregate, applica filtri interattivi per isolare problemi specifici o intervalli di punteggio e approfondisce le singole istanze che esemplificano un particolare schema comportamentale. Dimostriamo l'analisi di CLEAR per benchmark RAG e di matematica e ne illustriamo l'utilità attraverso uno studio di caso con utenti.

English

The evaluation of Large Language Models (LLMs) increasingly relies on other LLMs acting as judges. However, current evaluation paradigms typically yield a single score or ranking, answering which model is better but not why. While essential for benchmarking, these top-level scores obscure the specific, actionable reasons behind a model's performance. To bridge this gap, we introduce CLEAR, an interactive, open-source package for LLM-based error analysis. CLEAR first generates per-instance textual feedback, then it creates a set of system-level error issues, and quantifies the prevalence of each identified issue. Our package also provides users with an interactive dashboard that allows for a comprehensive error analysis through aggregate visualizations, applies interactive filters to isolate specific issues or score ranges, and drills down to the individual instances that exemplify a particular behavioral pattern. We demonstrate CLEAR analysis for RAG and Math benchmarks, and showcase its utility through a user case study.

CLEAR: Analisi degli Errori Semplificata con LLM come Giudice

CLEAR: Error Analysis via LLM-as-a-Judge Made Easy

Abstract

Support