EvalTree : Profilage des faiblesses des modèles de langage via des arbres de capacités hiérarchiques
EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees
March 11, 2025
Auteurs: Zhiyuan Zeng, Yizhong Wang, Hannaneh Hajishirzi, Pang Wei Koh
cs.AI
Résumé
Une évaluation idéale d'un modèle devrait atteindre deux objectifs : identifier où le modèle échoue et fournir des conseils exploitables pour l'amélioration. Pour atteindre ces objectifs dans le cadre des évaluations de modèles de langage (LM), nous formulons le problème de génération d'un profil de faiblesses, un ensemble de faiblesses exprimées en langage naturel, en fonction des performances d'un LM sur chaque instance individuelle d'un benchmark. Nous introduisons une série d'évaluations quantitatives pour comparer différentes méthodes de profilage des faiblesses. Nous proposons également une méthode de profilage des faiblesses appelée EvalTree. Elle construit un arbre de capacités où chaque nœud représente une capacité décrite en langage naturel et est lié à un sous-ensemble d'instances de benchmark qui évaluent spécifiquement cette capacité ; elle extrait ensuite les nœuds où le LM performe mal pour générer un profil de faiblesses. Sur les benchmarks MATH et WildChat, nous montrons qu'EvalTree surpasse les méthodes de profilage des faiblesses de base en identifiant les faiblesses de manière plus précise et complète. Le profilage des faiblesses permet également une collecte de données guidée par les faiblesses, et la collecte de données d'entraînement guidée par les faiblesses identifiées par EvalTree améliore les performances du LM plus que d'autres stratégies de collecte de données. Nous montrons également comment EvalTree expose les défauts de la pratique d'évaluation basée sur les votes humains de Chatbot Arena. Pour faciliter les travaux futurs, nous publions notre code et une interface qui permet aux praticiens d'explorer interactivement les arbres de capacités construits par EvalTree.
English
An ideal model evaluation should achieve two goals: identifying where the
model fails and providing actionable improvement guidance. Toward these goals
for Language Model (LM) evaluations, we formulate the problem of generating a
weakness profile, a set of weaknesses expressed in natural language, given an
LM's performance on every individual instance in a benchmark. We introduce a
suite of quantitative assessments to compare different weakness profiling
methods. We also propose a weakness profiling method EvalTree. It constructs a
capability tree where each node represents a capability described in natural
language and is linked to a subset of benchmark instances that specifically
evaluate this capability; it then extracts nodes where the LM performs poorly
to generate a weakness profile. On the MATH and WildChat benchmarks, we show
that EvalTree outperforms baseline weakness profiling methods by identifying
weaknesses more precisely and comprehensively. Weakness profiling further
enables weakness-guided data collection, and training data collection guided by
EvalTree-identified weaknesses improves LM performance more than other data
collection strategies. We also show how EvalTree exposes flaws in Chatbot
Arena's human-voter-based evaluation practice. To facilitate future work, we
release our code and an interface that allows practitioners to interactively
explore the capability trees built by EvalTree.Summary
AI-Generated Summary