ChatPaper.aiChatPaper

CLEAR : Analyse d'erreurs simplifiée grâce à un LLM en tant qu'arbitre

CLEAR: Error Analysis via LLM-as-a-Judge Made Easy

July 24, 2025
papers.authors: Asaf Yehudai, Lilach Eden, Yotam Perlitz, Roy Bar-Haim, Michal Shmueli-Scheuer
cs.AI

papers.abstract

L'évaluation des modèles de langage de grande taille (LLMs) repose de plus en plus sur d'autres LLMs agissant en tant qu'évaluateurs. Cependant, les paradigmes d'évaluation actuels produisent généralement un score unique ou un classement, répondant à la question de savoir quel modèle est meilleur, mais pas pourquoi. Bien qu'essentiels pour l'établissement de références, ces scores de haut niveau masquent les raisons spécifiques et exploitables derrière la performance d'un modèle. Pour combler cette lacune, nous introduisons CLEAR, un package interactif et open-source pour l'analyse d'erreurs basée sur les LLMs. CLEAR génère d'abord des retours textuels par instance, puis crée un ensemble de problèmes d'erreurs au niveau du système, et quantifie la prévalence de chaque problème identifié. Notre package fournit également aux utilisateurs un tableau de bord interactif qui permet une analyse approfondie des erreurs grâce à des visualisations agrégées, applique des filtres interactifs pour isoler des problèmes ou des plages de scores spécifiques, et permet de descendre jusqu'aux instances individuelles qui illustrent un modèle comportemental particulier. Nous démontrons l'analyse CLEAR pour des benchmarks RAG et Mathématiques, et mettons en avant son utilité à travers une étude de cas utilisateur.
English
The evaluation of Large Language Models (LLMs) increasingly relies on other LLMs acting as judges. However, current evaluation paradigms typically yield a single score or ranking, answering which model is better but not why. While essential for benchmarking, these top-level scores obscure the specific, actionable reasons behind a model's performance. To bridge this gap, we introduce CLEAR, an interactive, open-source package for LLM-based error analysis. CLEAR first generates per-instance textual feedback, then it creates a set of system-level error issues, and quantifies the prevalence of each identified issue. Our package also provides users with an interactive dashboard that allows for a comprehensive error analysis through aggregate visualizations, applies interactive filters to isolate specific issues or score ranges, and drills down to the individual instances that exemplify a particular behavioral pattern. We demonstrate CLEAR analysis for RAG and Math benchmarks, and showcase its utility through a user case study.
PDF152July 28, 2025