EvalTree: Het in kaart brengen van zwaktes in taalmodelprestaties via hiërarchische vaardigheidsbomen
EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees
March 11, 2025
Auteurs: Zhiyuan Zeng, Yizhong Wang, Hannaneh Hajishirzi, Pang Wei Koh
cs.AI
Samenvatting
Een ideale model-evaluatie moet twee doelen bereiken: identificeren waar het
model faalt en bruikbare richtlijnen voor verbetering bieden. Met het oog op
deze doelen voor Language Model (LM)-evaluaties formuleren we het probleem van
het genereren van een zwakteprofiel, een set zwaktes uitgedrukt in natuurlijke
taal, op basis van de prestaties van een LM op elk individueel geval in een
benchmark. We introduceren een reeks kwantitatieve beoordelingen om verschillende
methoden voor zwakteprofiling te vergelijken. We stellen ook een methode voor
zwakteprofiling voor, genaamd EvalTree. Deze construeert een capaciteitenboom
waarbij elk knooppunt een capaciteit vertegenwoordigt die in natuurlijke taal
wordt beschreven en is gekoppeld aan een subset van benchmarkgevallen die deze
capaciteit specifiek evalueren; vervolgens extraheert het knooppunten waar de LM
slecht presteert om een zwakteprofiel te genereren. Op de MATH- en WildChat-
benchmarks tonen we aan dat EvalTree baseline-methoden voor zwakteprofiling
overtreft door zwaktes nauwkeuriger en uitgebreider te identificeren. Zwakteprofiling
maakt verder zwaktegestuurde dataverzameling mogelijk, en trainingsdataverzameling
geleid door EvalTree-geïdentificeerde zwaktes verbetert de LM-prestaties meer dan
andere dataverzamelingsstrategieën. We laten ook zien hoe EvalTree tekortkomingen
blootlegt in de op menselijke stemmen gebaseerde evaluatiepraktijk van Chatbot
Arena. Om toekomstig werk te vergemakkelijken, geven we onze code vrij en een
interface waarmee beoefenaars de capaciteitenbomen die door EvalTree zijn
geconstrueerd, interactief kunnen verkennen.
English
An ideal model evaluation should achieve two goals: identifying where the
model fails and providing actionable improvement guidance. Toward these goals
for Language Model (LM) evaluations, we formulate the problem of generating a
weakness profile, a set of weaknesses expressed in natural language, given an
LM's performance on every individual instance in a benchmark. We introduce a
suite of quantitative assessments to compare different weakness profiling
methods. We also propose a weakness profiling method EvalTree. It constructs a
capability tree where each node represents a capability described in natural
language and is linked to a subset of benchmark instances that specifically
evaluate this capability; it then extracts nodes where the LM performs poorly
to generate a weakness profile. On the MATH and WildChat benchmarks, we show
that EvalTree outperforms baseline weakness profiling methods by identifying
weaknesses more precisely and comprehensively. Weakness profiling further
enables weakness-guided data collection, and training data collection guided by
EvalTree-identified weaknesses improves LM performance more than other data
collection strategies. We also show how EvalTree exposes flaws in Chatbot
Arena's human-voter-based evaluation practice. To facilitate future work, we
release our code and an interface that allows practitioners to interactively
explore the capability trees built by EvalTree.Summary
AI-Generated Summary