EvalTree: Profilare le Debolezze dei Modelli Linguistici tramite Alberi Gerarchici di Capacità

Abstract

Una valutazione ideale del modello dovrebbe raggiungere due obiettivi: identificare dove il modello fallisce e fornire indicazioni pratiche per il miglioramento. Verso questi obiettivi per le valutazioni dei Modelli Linguistici (LM), formuliamo il problema della generazione di un profilo di debolezze, un insieme di debolezze espresse in linguaggio naturale, dato il rendimento di un LM su ogni singolo caso in un benchmark. Introduciamo una serie di valutazioni quantitative per confrontare diversi metodi di profilazione delle debolezze. Proponiamo inoltre un metodo di profilazione delle debolezze chiamato EvalTree. Esso costruisce un albero delle capacità in cui ogni nodo rappresenta una capacità descritta in linguaggio naturale ed è collegato a un sottoinsieme di casi del benchmark che valutano specificamente tale capacità; estrae poi i nodi in cui il LM ha prestazioni scarse per generare un profilo di debolezze. Sui benchmark MATH e WildChat, dimostriamo che EvalTree supera i metodi di profilazione delle debolezze di base identificando le debolezze in modo più preciso e completo. La profilazione delle debolezze consente inoltre una raccolta dati guidata dalle debolezze, e la raccolta di dati di addestramento guidata dalle debolezze identificate da EvalTree migliora le prestazioni del LM più di altre strategie di raccolta dati. Mostriamo anche come EvalTree metta in luce le carenze nella pratica di valutazione basata sui voti umani di Chatbot Arena. Per facilitare il lavoro futuro, rilasciamo il nostro codice e un'interfaccia che consente ai professionisti di esplorare in modo interattivo gli alberi delle capacità costruiti da EvalTree.

English

An ideal model evaluation should achieve two goals: identifying where the model fails and providing actionable improvement guidance. Toward these goals for Language Model (LM) evaluations, we formulate the problem of generating a weakness profile, a set of weaknesses expressed in natural language, given an LM's performance on every individual instance in a benchmark. We introduce a suite of quantitative assessments to compare different weakness profiling methods. We also propose a weakness profiling method EvalTree. It constructs a capability tree where each node represents a capability described in natural language and is linked to a subset of benchmark instances that specifically evaluate this capability; it then extracts nodes where the LM performs poorly to generate a weakness profile. On the MATH and WildChat benchmarks, we show that EvalTree outperforms baseline weakness profiling methods by identifying weaknesses more precisely and comprehensively. Weakness profiling further enables weakness-guided data collection, and training data collection guided by EvalTree-identified weaknesses improves LM performance more than other data collection strategies. We also show how EvalTree exposes flaws in Chatbot Arena's human-voter-based evaluation practice. To facilitate future work, we release our code and an interface that allows practitioners to interactively explore the capability trees built by EvalTree.

EvalTree: Profilare le Debolezze dei Modelli Linguistici tramite Alberi Gerarchici di Capacità

EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees

Abstract

Support