ChatPaper.aiChatPaper

StructEval: 구조화된 평가를 통해 대규모 언어 모델 평가를 심화하고 확장하기

StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation

August 6, 2024
저자: Boxi Cao, Mengjie Ren, Hongyu Lin, Xianpei Han, Feng Zhang, Junfeng Zhan, Le Sun
cs.AI

초록

평가는 대규모 언어 모델의 발전을 위한 지휘봉입니다. 현재의 평가는 일반적으로 각 원자적 테스트 목표에 대해 단일 항목 평가 패러다임을 사용하며, 모델이 필요한 능력을 실제로 갖고 있는지 아니면 특정 질문에 대한 답변을 단순히 기억하거나 추측하는지를 구별하는 데 어려움을 겪습니다. 이에 우리는 StructEval이라고 불리는 새로운 평가 프레임워크를 제안합니다. 원자적 테스트 목표에서 시작하여, StructEval은 다양한 인지 수준과 중요한 개념을 가로지르며 구조화된 평가를 수행하여 LLMs에 대해 포괄적이고 견고하며 일관된 평가를 제공합니다. 세 가지 널리 사용되는 벤치마크에서의 실험 결과는 StructEval이 데이터 오염의 위험에 대항하고 잠재적 편향의 간섭을 줄이는 믿을 수 있는 도구로 작용하여 모델 능력에 관한 더 신뢰할 수 있고 일관된 결론을 제공한다는 것을 입증합니다. 또한 우리의 프레임워크는 미래의 원칙적이고 신뢰할 수 있는 LLM 평가 프로토콜의 설계에 대한 통찰을 제공합니다.
English
Evaluation is the baton for the development of large language models. Current evaluations typically employ a single-item assessment paradigm for each atomic test objective, which struggles to discern whether a model genuinely possesses the required capabilities or merely memorizes/guesses the answers to specific questions. To this end, we propose a novel evaluation framework referred to as StructEval. Starting from an atomic test objective, StructEval deepens and broadens the evaluation by conducting a structured assessment across multiple cognitive levels and critical concepts, and therefore offers a comprehensive, robust and consistent evaluation for LLMs. Experiments on three widely-used benchmarks demonstrate that StructEval serves as a reliable tool for resisting the risk of data contamination and reducing the interference of potential biases, thereby providing more reliable and consistent conclusions regarding model capabilities. Our framework also sheds light on the design of future principled and trustworthy LLM evaluation protocols.

Summary

AI-Generated Summary

PDF102November 28, 2024