ChatPaper.aiChatPaper

CLEAR: Fehleranalyse mittels LLM-als-Richter vereinfacht

CLEAR: Error Analysis via LLM-as-a-Judge Made Easy

July 24, 2025
papers.authors: Asaf Yehudai, Lilach Eden, Yotam Perlitz, Roy Bar-Haim, Michal Shmueli-Scheuer
cs.AI

papers.abstract

Die Bewertung von Large Language Models (LLMs) stützt sich zunehmend auf andere LLMs, die als Richter fungieren. Allerdings liefern aktuelle Evaluationsparadigmen typischerweise eine einzelne Bewertung oder Rangfolge, die beantwortet, welches Modell besser ist, aber nicht warum. Obwohl diese Top-Level-Bewertungen für Benchmarking unerlässlich sind, verdecken sie die spezifischen, umsetzbaren Gründe hinter der Leistung eines Modells. Um diese Lücke zu schließen, stellen wir CLEAR vor, ein interaktives, quelloffenes Paket für die fehlerbasierte Analyse von LLMs. CLEAR generiert zunächst textbasierte Rückmeldungen pro Instanz, erstellt dann eine Reihe von systemweiten Fehlerproblemen und quantifiziert die Häufigkeit jedes identifizierten Problems. Unser Paket bietet den Nutzern auch ein interaktives Dashboard, das eine umfassende Fehleranalyse durch aggregierte Visualisierungen ermöglicht, interaktive Filter zur Isolierung spezifischer Probleme oder Bewertungsbereiche anwendet und bis zu den einzelnen Instanzen vordringt, die ein bestimmtes Verhaltensmuster exemplarisch darstellen. Wir demonstrieren die CLEAR-Analyse für RAG- und Mathematik-Benchmarks und zeigen ihren Nutzen durch eine Nutzerfallstudie auf.
English
The evaluation of Large Language Models (LLMs) increasingly relies on other LLMs acting as judges. However, current evaluation paradigms typically yield a single score or ranking, answering which model is better but not why. While essential for benchmarking, these top-level scores obscure the specific, actionable reasons behind a model's performance. To bridge this gap, we introduce CLEAR, an interactive, open-source package for LLM-based error analysis. CLEAR first generates per-instance textual feedback, then it creates a set of system-level error issues, and quantifies the prevalence of each identified issue. Our package also provides users with an interactive dashboard that allows for a comprehensive error analysis through aggregate visualizations, applies interactive filters to isolate specific issues or score ranges, and drills down to the individual instances that exemplify a particular behavioral pattern. We demonstrate CLEAR analysis for RAG and Math benchmarks, and showcase its utility through a user case study.
PDF152July 28, 2025