EvalTree: Perfilado de Debilidades en Modelos de Lenguaje mediante Árboles Jerárquicos de Capacidades
EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees
March 11, 2025
Autores: Zhiyuan Zeng, Yizhong Wang, Hannaneh Hajishirzi, Pang Wei Koh
cs.AI
Resumen
Una evaluación ideal de modelos debería alcanzar dos objetivos: identificar dónde falla el modelo y proporcionar orientación accionable para su mejora. Con estos objetivos en mente para las evaluaciones de Modelos de Lenguaje (LM), formulamos el problema de generar un perfil de debilidades, un conjunto de debilidades expresadas en lenguaje natural, basado en el rendimiento de un LM en cada instancia individual de un benchmark. Introducimos un conjunto de evaluaciones cuantitativas para comparar diferentes métodos de generación de perfiles de debilidades. También proponemos un método de generación de perfiles de debilidades llamado EvalTree. Este método construye un árbol de capacidades donde cada nodo representa una capacidad descrita en lenguaje natural y está vinculado a un subconjunto de instancias del benchmark que evalúan específicamente esta capacidad; luego extrae los nodos donde el LM tiene un rendimiento deficiente para generar un perfil de debilidades. En los benchmarks MATH y WildChat, demostramos que EvalTree supera a los métodos base de generación de perfiles de debilidades al identificar las debilidades de manera más precisa y exhaustiva. La generación de perfiles de debilidades también permite la recopilación de datos guiada por debilidades, y la recopilación de datos de entrenamiento guiada por las debilidades identificadas por EvalTree mejora el rendimiento del LM más que otras estrategias de recopilación de datos. También mostramos cómo EvalTree expone fallas en la práctica de evaluación basada en votantes humanos de Chatbot Arena. Para facilitar trabajos futuros, publicamos nuestro código y una interfaz que permite a los profesionales explorar interactivamente los árboles de capacidades construidos por EvalTree.
English
An ideal model evaluation should achieve two goals: identifying where the
model fails and providing actionable improvement guidance. Toward these goals
for Language Model (LM) evaluations, we formulate the problem of generating a
weakness profile, a set of weaknesses expressed in natural language, given an
LM's performance on every individual instance in a benchmark. We introduce a
suite of quantitative assessments to compare different weakness profiling
methods. We also propose a weakness profiling method EvalTree. It constructs a
capability tree where each node represents a capability described in natural
language and is linked to a subset of benchmark instances that specifically
evaluate this capability; it then extracts nodes where the LM performs poorly
to generate a weakness profile. On the MATH and WildChat benchmarks, we show
that EvalTree outperforms baseline weakness profiling methods by identifying
weaknesses more precisely and comprehensively. Weakness profiling further
enables weakness-guided data collection, and training data collection guided by
EvalTree-identified weaknesses improves LM performance more than other data
collection strategies. We also show how EvalTree exposes flaws in Chatbot
Arena's human-voter-based evaluation practice. To facilitate future work, we
release our code and an interface that allows practitioners to interactively
explore the capability trees built by EvalTree.Summary
AI-Generated Summary