대형 언어 모델의 장문 사실성
Long-form factuality in large language models
March 27, 2024
저자: Jerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu, Dustin Tran, Daiyi Peng, Ruibo Liu, Da Huang, Cosmo Du, Quoc V. Le
cs.AI
초록
대규모 언어 모델(LLM)은 개방형 주제에 대한 사실 탐색 프롬프트에 응답할 때 종종 사실 오류가 포함된 콘텐츠를 생성합니다. 개방 도메인에서 모델의 장문 사실성(factuality)을 벤치마킹하기 위해, 우리는 먼저 GPT-4를 사용하여 38개 주제에 걸친 수천 개의 질문으로 구성된 프롬프트 세트인 LongFact를 생성했습니다. 그런 다음, LLM 에이전트를 자동화된 평가자로 활용하여 장문 사실성을 평가하는 방법인 Search-Augmented Factuality Evaluator(SAFE)를 제안합니다. SAFE는 LLM을 사용하여 장문 응답을 개별 사실로 분해하고, Google 검색에 쿼리를 보내고 검색 결과를 통해 각 사실의 정확성을 판단하는 다단계 추론 프로세스를 통해 각 사실의 정확성을 평가합니다. 또한, 장문 사실성을 종합적으로 측정하기 위해 F1 점수를 확장하는 방안을 제안합니다. 이를 위해, 응답에서 지원된 사실의 비율(정밀도)과 사용자가 선호하는 응답 길이를 나타내는 하이퍼파라미터에 대한 제공된 사실의 비율(재현율)을 균형 있게 고려합니다.
실험적으로, 우리는 LLM 에이전트가 인간 평가자를 능가하는 성능을 달성할 수 있음을 입증했습니다. 약 16,000개의 개별 사실에 대해 SAFE는 크라우드소싱된 인간 평가자와 72%의 일치율을 보였으며, 100개의 불일치 사례 중 무작위로 선택된 하위 집합에서 SAFE는 76%의 경우에서 더 나은 평가를 제공했습니다. 동시에, SAFE는 인간 평가자보다 20배 이상 저렴합니다. 또한, 우리는 Gemini, GPT, Claude, PaLM-2 네 가지 모델 패밀리에 속한 13개의 언어 모델을 LongFact에서 벤치마킹했으며, 더 큰 언어 모델이 일반적으로 더 나은 장문 사실성을 달성한다는 사실을 발견했습니다. LongFact, SAFE 및 모든 실험 코드는 https://github.com/google-deepmind/long-form-factuality에서 확인할 수 있습니다.
English
Large language models (LLMs) often generate content that contains factual
errors when responding to fact-seeking prompts on open-ended topics. To
benchmark a model's long-form factuality in open domains, we first use GPT-4 to
generate LongFact, a prompt set comprising thousands of questions spanning 38
topics. We then propose that LLM agents can be used as automated evaluators for
long-form factuality through a method which we call Search-Augmented Factuality
Evaluator (SAFE). SAFE utilizes an LLM to break down a long-form response into
a set of individual facts and to evaluate the accuracy of each fact using a
multi-step reasoning process comprising sending search queries to Google Search
and determining whether a fact is supported by the search results. Furthermore,
we propose extending F1 score as an aggregated metric for long-form factuality.
To do so, we balance the percentage of supported facts in a response
(precision) with the percentage of provided facts relative to a hyperparameter
representing a user's preferred response length (recall).
Empirically, we demonstrate that LLM agents can achieve superhuman rating
performance - on a set of ~16k individual facts, SAFE agrees with crowdsourced
human annotators 72% of the time, and on a random subset of 100 disagreement
cases, SAFE wins 76% of the time. At the same time, SAFE is more than 20 times
cheaper than human annotators. We also benchmark thirteen language models on
LongFact across four model families (Gemini, GPT, Claude, and PaLM-2), finding
that larger language models generally achieve better long-form factuality.
LongFact, SAFE, and all experimental code are available at
https://github.com/google-deepmind/long-form-factuality.Summary
AI-Generated Summary