EvalTree : Profilage des faiblesses des modèles de langage via des arbres de capacités hiérarchiques

papers.abstract

Une évaluation idéale d'un modèle devrait atteindre deux objectifs : identifier où le modèle échoue et fournir des conseils exploitables pour l'amélioration. Pour atteindre ces objectifs dans le cadre des évaluations de modèles de langage (LM), nous formulons le problème de génération d'un profil de faiblesses, un ensemble de faiblesses exprimées en langage naturel, en fonction des performances d'un LM sur chaque instance individuelle d'un benchmark. Nous introduisons une série d'évaluations quantitatives pour comparer différentes méthodes de profilage des faiblesses. Nous proposons également une méthode de profilage des faiblesses appelée EvalTree. Elle construit un arbre de capacités où chaque nœud représente une capacité décrite en langage naturel et est lié à un sous-ensemble d'instances de benchmark qui évaluent spécifiquement cette capacité ; elle extrait ensuite les nœuds où le LM performe mal pour générer un profil de faiblesses. Sur les benchmarks MATH et WildChat, nous montrons qu'EvalTree surpasse les méthodes de profilage des faiblesses de base en identifiant les faiblesses de manière plus précise et complète. Le profilage des faiblesses permet également une collecte de données guidée par les faiblesses, et la collecte de données d'entraînement guidée par les faiblesses identifiées par EvalTree améliore les performances du LM plus que d'autres stratégies de collecte de données. Nous montrons également comment EvalTree expose les défauts de la pratique d'évaluation basée sur les votes humains de Chatbot Arena. Pour faciliter les travaux futurs, nous publions notre code et une interface qui permet aux praticiens d'explorer interactivement les arbres de capacités construits par EvalTree.

English

An ideal model evaluation should achieve two goals: identifying where the model fails and providing actionable improvement guidance. Toward these goals for Language Model (LM) evaluations, we formulate the problem of generating a weakness profile, a set of weaknesses expressed in natural language, given an LM's performance on every individual instance in a benchmark. We introduce a suite of quantitative assessments to compare different weakness profiling methods. We also propose a weakness profiling method EvalTree. It constructs a capability tree where each node represents a capability described in natural language and is linked to a subset of benchmark instances that specifically evaluate this capability; it then extracts nodes where the LM performs poorly to generate a weakness profile. On the MATH and WildChat benchmarks, we show that EvalTree outperforms baseline weakness profiling methods by identifying weaknesses more precisely and comprehensively. Weakness profiling further enables weakness-guided data collection, and training data collection guided by EvalTree-identified weaknesses improves LM performance more than other data collection strategies. We also show how EvalTree exposes flaws in Chatbot Arena's human-voter-based evaluation practice. To facilitate future work, we release our code and an interface that allows practitioners to interactively explore the capability trees built by EvalTree.

EvalTree : Profilage des faiblesses des modèles de langage via des arbres de capacités hiérarchiques

EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees

papers.abstract

Support