EvalTree: Профилирование слабых мест языковых моделей с использованием иерархических деревьев возможностей

Аннотация

Идеальная оценка модели должна достигать двух целей: выявление областей, где модель терпит неудачу, и предоставление практических рекомендаций для улучшения. Для достижения этих целей в оценках языковых моделей (LM) мы формулируем задачу генерации профиля слабостей — набора слабых мест, выраженных на естественном языке, на основе производительности LM на каждом отдельном примере в бенчмарке. Мы представляем набор количественных оценок для сравнения различных методов профилирования слабостей. Также мы предлагаем метод профилирования слабостей EvalTree. Он строит дерево возможностей, где каждый узел представляет собой способность, описанную на естественном языке, и связан с подмножеством примеров из бенчмарка, которые специфически оценивают эту способность; затем извлекаются узлы, где LM показывает низкую производительность, чтобы сформировать профиль слабостей. На бенчмарках MATH и WildChat мы показываем, что EvalTree превосходит базовые методы профилирования слабостей, выявляя слабости более точно и полно. Профилирование слабостей также позволяет проводить сбор данных, ориентированный на слабые места, и сбор обучающих данных, направленный на слабости, выявленные EvalTree, улучшает производительность LM в большей степени, чем другие стратегии сбора данных. Мы также демонстрируем, как EvalTree выявляет недостатки в практике оценки Chatbot Arena, основанной на голосовании людей. Для содействия будущим исследованиям мы публикуем наш код и интерфейс, который позволяет специалистам интерактивно исследовать деревья возможностей, построенные EvalTree.

English

An ideal model evaluation should achieve two goals: identifying where the model fails and providing actionable improvement guidance. Toward these goals for Language Model (LM) evaluations, we formulate the problem of generating a weakness profile, a set of weaknesses expressed in natural language, given an LM's performance on every individual instance in a benchmark. We introduce a suite of quantitative assessments to compare different weakness profiling methods. We also propose a weakness profiling method EvalTree. It constructs a capability tree where each node represents a capability described in natural language and is linked to a subset of benchmark instances that specifically evaluate this capability; it then extracts nodes where the LM performs poorly to generate a weakness profile. On the MATH and WildChat benchmarks, we show that EvalTree outperforms baseline weakness profiling methods by identifying weaknesses more precisely and comprehensively. Weakness profiling further enables weakness-guided data collection, and training data collection guided by EvalTree-identified weaknesses improves LM performance more than other data collection strategies. We also show how EvalTree exposes flaws in Chatbot Arena's human-voter-based evaluation practice. To facilitate future work, we release our code and an interface that allows practitioners to interactively explore the capability trees built by EvalTree.

EvalTree: Профилирование слабых мест языковых моделей с использованием иерархических деревьев возможностей

EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees

Аннотация

Support