EvalTree: Perfilado de Debilidades en Modelos de Lenguaje mediante Árboles Jerárquicos de Capacidades

Resumen

Una evaluación ideal de modelos debería alcanzar dos objetivos: identificar dónde falla el modelo y proporcionar orientación accionable para su mejora. Con estos objetivos en mente para las evaluaciones de Modelos de Lenguaje (LM), formulamos el problema de generar un perfil de debilidades, un conjunto de debilidades expresadas en lenguaje natural, basado en el rendimiento de un LM en cada instancia individual de un benchmark. Introducimos un conjunto de evaluaciones cuantitativas para comparar diferentes métodos de generación de perfiles de debilidades. También proponemos un método de generación de perfiles de debilidades llamado EvalTree. Este método construye un árbol de capacidades donde cada nodo representa una capacidad descrita en lenguaje natural y está vinculado a un subconjunto de instancias del benchmark que evalúan específicamente esta capacidad; luego extrae los nodos donde el LM tiene un rendimiento deficiente para generar un perfil de debilidades. En los benchmarks MATH y WildChat, demostramos que EvalTree supera a los métodos base de generación de perfiles de debilidades al identificar las debilidades de manera más precisa y exhaustiva. La generación de perfiles de debilidades también permite la recopilación de datos guiada por debilidades, y la recopilación de datos de entrenamiento guiada por las debilidades identificadas por EvalTree mejora el rendimiento del LM más que otras estrategias de recopilación de datos. También mostramos cómo EvalTree expone fallas en la práctica de evaluación basada en votantes humanos de Chatbot Arena. Para facilitar trabajos futuros, publicamos nuestro código y una interfaz que permite a los profesionales explorar interactivamente los árboles de capacidades construidos por EvalTree.

English

An ideal model evaluation should achieve two goals: identifying where the model fails and providing actionable improvement guidance. Toward these goals for Language Model (LM) evaluations, we formulate the problem of generating a weakness profile, a set of weaknesses expressed in natural language, given an LM's performance on every individual instance in a benchmark. We introduce a suite of quantitative assessments to compare different weakness profiling methods. We also propose a weakness profiling method EvalTree. It constructs a capability tree where each node represents a capability described in natural language and is linked to a subset of benchmark instances that specifically evaluate this capability; it then extracts nodes where the LM performs poorly to generate a weakness profile. On the MATH and WildChat benchmarks, we show that EvalTree outperforms baseline weakness profiling methods by identifying weaknesses more precisely and comprehensively. Weakness profiling further enables weakness-guided data collection, and training data collection guided by EvalTree-identified weaknesses improves LM performance more than other data collection strategies. We also show how EvalTree exposes flaws in Chatbot Arena's human-voter-based evaluation practice. To facilitate future work, we release our code and an interface that allows practitioners to interactively explore the capability trees built by EvalTree.

EvalTree: Perfilado de Debilidades en Modelos de Lenguaje mediante Árboles Jerárquicos de Capacidades

EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees

Resumen

Support