EvalTree: Perfilando Fraquezas de Modelos de Linguagem por meio de Árvores Hierárquicas de Capacidades
EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees
March 11, 2025
Autores: Zhiyuan Zeng, Yizhong Wang, Hannaneh Hajishirzi, Pang Wei Koh
cs.AI
Resumo
Uma avaliação ideal de modelos deve alcançar dois objetivos: identificar onde o modelo falha e fornecer orientações acionáveis para melhorias. Em direção a esses objetivos para avaliações de Modelos de Linguagem (LM), formulamos o problema de gerar um perfil de fraquezas, um conjunto de fraquezas expressas em linguagem natural, com base no desempenho de um LM em cada instância individual de um benchmark. Introduzimos um conjunto de avaliações quantitativas para comparar diferentes métodos de criação de perfis de fraquezas. Também propomos um método de criação de perfis de fraquezas chamado EvalTree. Ele constrói uma árvore de capacidades onde cada nó representa uma capacidade descrita em linguagem natural e está vinculado a um subconjunto de instâncias do benchmark que avaliam especificamente essa capacidade; em seguida, extrai nós onde o LM tem desempenho ruim para gerar um perfil de fraquezas. Nos benchmarks MATH e WildChat, mostramos que o EvalTree supera métodos baselines de criação de perfis de fraquezas ao identificar fraquezas de forma mais precisa e abrangente. A criação de perfis de fraquezas também possibilita a coleta de dados guiada por fraquezas, e a coleta de dados de treinamento orientada pelas fraquezas identificadas pelo EvalTree melhora o desempenho do LM mais do que outras estratégias de coleta de dados. Também mostramos como o EvalTree expõe falhas na prática de avaliação baseada em votação humana do Chatbot Arena. Para facilitar trabalhos futuros, disponibilizamos nosso código e uma interface que permite que profissionais explorem interativamente as árvores de capacidades construídas pelo EvalTree.
English
An ideal model evaluation should achieve two goals: identifying where the
model fails and providing actionable improvement guidance. Toward these goals
for Language Model (LM) evaluations, we formulate the problem of generating a
weakness profile, a set of weaknesses expressed in natural language, given an
LM's performance on every individual instance in a benchmark. We introduce a
suite of quantitative assessments to compare different weakness profiling
methods. We also propose a weakness profiling method EvalTree. It constructs a
capability tree where each node represents a capability described in natural
language and is linked to a subset of benchmark instances that specifically
evaluate this capability; it then extracts nodes where the LM performs poorly
to generate a weakness profile. On the MATH and WildChat benchmarks, we show
that EvalTree outperforms baseline weakness profiling methods by identifying
weaknesses more precisely and comprehensively. Weakness profiling further
enables weakness-guided data collection, and training data collection guided by
EvalTree-identified weaknesses improves LM performance more than other data
collection strategies. We also show how EvalTree exposes flaws in Chatbot
Arena's human-voter-based evaluation practice. To facilitate future work, we
release our code and an interface that allows practitioners to interactively
explore the capability trees built by EvalTree.Summary
AI-Generated Summary