성적표: 자연어 요약을 활용한 언어 모델의 질적 평가
Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries
September 1, 2024
저자: Blair Yang, Fuyang Cui, Keiran Paster, Jimmy Ba, Pashootan Vaezipoor, Silviu Pitis, Michael R. Zhang
cs.AI
초록
대규모 언어 모델(LLM)의 급속한 발전과 역동적인 특성으로 인해 기존의 정량적 벤치마크만으로는 이들의 능력을 정확히 평가하기 어렵다. 본 연구에서는 특정 기술이나 주제에 대한 모델 행동을 인간이 이해 가능한 자연어로 요약한 '리포트 카드'를 제안한다. 우리는 리포트 카드를 세 가지 기준(특이성: 모델 간 구분 능력, 정확성: 모델 능력의 정확한 표현, 해석 가능성: 인간에게 명확하고 관련성 높은 정도)에 따라 평가하는 프레임워크를 개발했다. 또한 인간의 감수 없이 리포트 카드를 생성하기 위한 반복 알고리즘을 제안하고 다양한 설계 선택을 배제함으로써 그 효용성을 탐구한다. 인기 있는 LLM을 대상으로 한 실험을 통해 리포트 카드가 기존 벤치마크를 넘어선 통찰력을 제공하며, LLM에 대한 보다 해석 가능하고 종합적인 평가 필요성을 해결하는 데 도움이 될 수 있음을 입증한다.
English
The rapid development and dynamic nature of large language models (LLMs) make
it difficult for conventional quantitative benchmarks to accurately assess
their capabilities. We propose report cards, which are human-interpretable,
natural language summaries of model behavior for specific skills or topics. We
develop a framework to evaluate report cards based on three criteria:
specificity (ability to distinguish between models), faithfulness (accurate
representation of model capabilities), and interpretability (clarity and
relevance to humans). We also propose an iterative algorithm for generating
report cards without human supervision and explore its efficacy by ablating
various design choices. Through experimentation with popular LLMs, we
demonstrate that report cards provide insights beyond traditional benchmarks
and can help address the need for a more interpretable and holistic evaluation
of LLMs.