언어 모델 협의회: 합의를 통해 고도로 주관적인 작업에서의 기초 모델 벤치마킹
Language Model Council: Benchmarking Foundation Models on Highly Subjective Tasks by Consensus
June 12, 2024
저자: Justin Zhao, Flor Miriam Plaza-del-Arco, Amanda Cercas Curry
cs.AI
초록
대규모 언어 모델(LLM)의 급속한 발전은 강력하고 도전적인 벤치마크의 필요성을 요구하고 있습니다. Chatbot Arena와 같은 리더보드는 LLM의 응답이 인간의 선호도와 얼마나 잘 일치하는지에 따라 순위를 매깁니다. 그러나 감성 지능, 창의적 글쓰기, 설득력 등과 관련된 많은 작업은 매우 주관적이며 종종 다수의 인간 합의가 부족합니다. 심사위원들은 더 나은 응답이 무엇인지에 대해 화해할 수 없는 의견 차이를 보일 수 있습니다. 이러한 고도로 주관적인 작업에서 LLM의 순위를 매기는 문제를 해결하기 위해, 우리는 새로운 벤치마킹 프레임워크인 '언어 모델 위원회(Language Model Council, LMC)'를 제안합니다. LMC는 민주적 절차를 통해 운영됩니다: 1) 동등한 참여를 통해 테스트 세트를 구성하고, 2) 위원회 구성원 간에 테스트를 실시하며, 3) 집단 배심원으로서 응답을 평가합니다. 우리는 20개의 최신 LLM으로 구성된 위원회를 개방형 감성 지능 작업(대인관계 딜레마에 응답하기)에 배치했습니다. 결과적으로 LMC는 개별 LLM 심사위원보다 더 분리 가능하고, 강건하며, 편향이 적은 순위를 생성하며, 다른 벤치마크에 비해 인간이 설정한 리더보드와 더 일치하는 것으로 나타났습니다.
English
The rapid advancement of Large Language Models (LLMs) necessitates robust and
challenging benchmarks. Leaderboards like Chatbot Arena rank LLMs based on how
well their responses align with human preferences. However, many tasks such as
those related to emotional intelligence, creative writing, or persuasiveness,
are highly subjective and often lack majoritarian human agreement. Judges may
have irreconcilable disagreements about what constitutes a better response. To
address the challenge of ranking LLMs on highly subjective tasks, we propose a
novel benchmarking framework, the Language Model Council (LMC). The LMC
operates through a democratic process to: 1) formulate a test set through equal
participation, 2) administer the test among council members, and 3) evaluate
responses as a collective jury. We deploy a council of 20 newest LLMs on an
open-ended emotional intelligence task: responding to interpersonal dilemmas.
Our results show that the LMC produces rankings that are more separable,
robust, and less biased than those from any individual LLM judge, and is more
consistent with a human-established leaderboard compared to other benchmarks.Summary
AI-Generated Summary