KoLA: Тщательное тестирование знаний о мире в больших языковых моделях

Аннотация

Беспрецедентная производительность крупных языковых моделей (LLM) требует улучшений в методах их оценки. Вместо того чтобы просто исследовать широту возможностей LLM, мы считаем, что тщательный и продуманный дизайн тестов необходим для проведения всесторонних, объективных и применимых оценок. Учитывая важность мировых знаний для LLM, мы создали эталонный тест для оценки знаний (Knowledge-oriented LLM Assessment, KoLA), в котором мы тщательно разработали три ключевых аспекта: (1) Для моделирования способностей мы имитируем человеческое познание, формируя четырехуровневую таксономию знаний, охватывающую 19 задач. (2) Для данных, чтобы обеспечить справедливые сравнения, мы используем как Википедию — корпус, широко используемый для предварительного обучения LLM, так и постоянно собираемые новые корпуса, чтобы оценить способность моделей работать с неизвестными данными и развивающимися знаниями. (3) Для критериев оценки мы применяем контрастную систему, включающую общие стандартные баллы для лучшей численной сопоставимости между задачами и моделями, а также уникальный метрический показатель самоконтраста для автоматической оценки галлюцинаций знаний. Мы оценили 21 открытую и коммерческую LLM и получили ряд интересных результатов. Набор данных KoLA и открытая таблица лидеров публично доступны по адресу https://kola.xlore.cn и будут постоянно обновляться, чтобы предоставлять ориентиры для разработки LLM и систем, связанных с обработкой знаний.

English

The unprecedented performance of large language models (LLMs) necessitates improvements in evaluations. Rather than merely exploring the breadth of LLM abilities, we believe meticulous and thoughtful designs are essential to thorough, unbiased, and applicable evaluations. Given the importance of world knowledge to LLMs, we construct a Knowledge-oriented LLM Assessment benchmark (KoLA), in which we carefully design three crucial factors: (1) For ability modeling, we mimic human cognition to form a four-level taxonomy of knowledge-related abilities, covering 19 tasks. (2) For data, to ensure fair comparisons, we use both Wikipedia, a corpus prevalently pre-trained by LLMs, along with continuously collected emerging corpora, aiming to evaluate the capacity to handle unseen data and evolving knowledge. (3) For evaluation criteria, we adopt a contrastive system, including overall standard scores for better numerical comparability across tasks and models and a unique self-contrast metric for automatically evaluating knowledge hallucination. We evaluate 21 open-source and commercial LLMs and obtain some intriguing findings. The KoLA dataset and open-participation leaderboard are publicly released at https://kola.xlore.cn and will be continuously updated to provide references for developing LLMs and knowledge-related systems.

KoLA: Тщательное тестирование знаний о мире в больших языковых моделях

KoLA: Carefully Benchmarking World Knowledge of Large Language Models

Аннотация

Support