EvalTree: Perfilando Fraquezas de Modelos de Linguagem por meio de Árvores Hierárquicas de Capacidades

Resumo

Uma avaliação ideal de modelos deve alcançar dois objetivos: identificar onde o modelo falha e fornecer orientações acionáveis para melhorias. Em direção a esses objetivos para avaliações de Modelos de Linguagem (LM), formulamos o problema de gerar um perfil de fraquezas, um conjunto de fraquezas expressas em linguagem natural, com base no desempenho de um LM em cada instância individual de um benchmark. Introduzimos um conjunto de avaliações quantitativas para comparar diferentes métodos de criação de perfis de fraquezas. Também propomos um método de criação de perfis de fraquezas chamado EvalTree. Ele constrói uma árvore de capacidades onde cada nó representa uma capacidade descrita em linguagem natural e está vinculado a um subconjunto de instâncias do benchmark que avaliam especificamente essa capacidade; em seguida, extrai nós onde o LM tem desempenho ruim para gerar um perfil de fraquezas. Nos benchmarks MATH e WildChat, mostramos que o EvalTree supera métodos baselines de criação de perfis de fraquezas ao identificar fraquezas de forma mais precisa e abrangente. A criação de perfis de fraquezas também possibilita a coleta de dados guiada por fraquezas, e a coleta de dados de treinamento orientada pelas fraquezas identificadas pelo EvalTree melhora o desempenho do LM mais do que outras estratégias de coleta de dados. Também mostramos como o EvalTree expõe falhas na prática de avaliação baseada em votação humana do Chatbot Arena. Para facilitar trabalhos futuros, disponibilizamos nosso código e uma interface que permite que profissionais explorem interativamente as árvores de capacidades construídas pelo EvalTree.

English

An ideal model evaluation should achieve two goals: identifying where the model fails and providing actionable improvement guidance. Toward these goals for Language Model (LM) evaluations, we formulate the problem of generating a weakness profile, a set of weaknesses expressed in natural language, given an LM's performance on every individual instance in a benchmark. We introduce a suite of quantitative assessments to compare different weakness profiling methods. We also propose a weakness profiling method EvalTree. It constructs a capability tree where each node represents a capability described in natural language and is linked to a subset of benchmark instances that specifically evaluate this capability; it then extracts nodes where the LM performs poorly to generate a weakness profile. On the MATH and WildChat benchmarks, we show that EvalTree outperforms baseline weakness profiling methods by identifying weaknesses more precisely and comprehensively. Weakness profiling further enables weakness-guided data collection, and training data collection guided by EvalTree-identified weaknesses improves LM performance more than other data collection strategies. We also show how EvalTree exposes flaws in Chatbot Arena's human-voter-based evaluation practice. To facilitate future work, we release our code and an interface that allows practitioners to interactively explore the capability trees built by EvalTree.

EvalTree: Perfilando Fraquezas de Modelos de Linguagem por meio de Árvores Hierárquicas de Capacidades

EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees

Resumo

Support