EvalTree: 계층적 능력 트리를 통한 언어 모델 약점 프로파일링
EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees
March 11, 2025
저자: Zhiyuan Zeng, Yizhong Wang, Hannaneh Hajishirzi, Pang Wei Koh
cs.AI
초록
이상적인 모델 평가는 두 가지 목표를 달성해야 합니다: 모델이 실패하는 지점을 식별하고, 실행 가능한 개선 지침을 제공하는 것입니다. 언어 모델(LM) 평가를 위한 이러한 목표를 달성하기 위해, 우리는 벤치마크의 모든 개별 인스턴스에서 LM의 성능을 기반으로 자연어로 표현된 약점 집합인 약점 프로파일(weakness profile)을 생성하는 문제를 공식화합니다. 우리는 다양한 약점 프로파일링 방법을 비교하기 위한 정량적 평가 도구 세트를 소개합니다. 또한 약점 프로파일링 방법인 EvalTree를 제안합니다. EvalTree는 각 노드가 자연어로 기술된 능력을 나타내고, 이 능력을 특별히 평가하는 벤치마크 인스턴스의 하위 집합과 연결된 능력 트리(capability tree)를 구성합니다. 그런 다음 LM이 성능이 저조한 노드를 추출하여 약점 프로파일을 생성합니다. MATH와 WildChat 벤치마크에서 EvalTree는 기존의 약점 프로파일링 방법보다 더 정확하고 포괄적으로 약점을 식별함으로써 우수한 성능을 보여줍니다. 약점 프로파일링은 약점 기반 데이터 수집을 가능하게 하며, EvalTree가 식별한 약점을 기반으로 한 훈련 데이터 수집은 다른 데이터 수집 전략보다 LM 성능을 더 크게 향상시킵니다. 또한 EvalTree는 Chatbot Arena의 인간 투표자 기반 평가 관행의 결함을 드러내는 방법도 보여줍니다. 향후 연구를 촉진하기 위해, 우리는 코드와 EvalTree가 구축한 능력 트리를 실시간으로 탐색할 수 있는 인터페이스를 공개합니다.
English
An ideal model evaluation should achieve two goals: identifying where the
model fails and providing actionable improvement guidance. Toward these goals
for Language Model (LM) evaluations, we formulate the problem of generating a
weakness profile, a set of weaknesses expressed in natural language, given an
LM's performance on every individual instance in a benchmark. We introduce a
suite of quantitative assessments to compare different weakness profiling
methods. We also propose a weakness profiling method EvalTree. It constructs a
capability tree where each node represents a capability described in natural
language and is linked to a subset of benchmark instances that specifically
evaluate this capability; it then extracts nodes where the LM performs poorly
to generate a weakness profile. On the MATH and WildChat benchmarks, we show
that EvalTree outperforms baseline weakness profiling methods by identifying
weaknesses more precisely and comprehensively. Weakness profiling further
enables weakness-guided data collection, and training data collection guided by
EvalTree-identified weaknesses improves LM performance more than other data
collection strategies. We also show how EvalTree exposes flaws in Chatbot
Arena's human-voter-based evaluation practice. To facilitate future work, we
release our code and an interface that allows practitioners to interactively
explore the capability trees built by EvalTree.