ChatPaper.aiChatPaper

Использование игр на угадывание слов для оценки интеллекта крупных языковых моделей

Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models

October 31, 2023
Авторы: Tian Liang, Zhiwei He, Jen-tes Huang, Wenxuan Wang, Wenxiang Jiao, Rui Wang, Yujiu Yang, Zhaopeng Tu, Shuming Shi, Xing Wang
cs.AI

Аннотация

Автоматическая оценка интеллекта агентов на основе больших языковых моделей (LLM) имеет критически важное значение для разработки продвинутых LLM-агентов. Хотя значительные усилия были направлены на создание аннотированных человеком наборов данных для оценки, таких как AlpacaEval, существующие методы являются дорогостоящими, трудоемкими и недостаточно адаптивными. В данной статье, вдохновившись популярной языковой игрой «Кто шпион», мы предлагаем использовать игру в угадывание слов для оценки интеллектуальных способностей LLM. Задается слово, и LLM требуется описать его и определить его идентичность (шпион или нет) на основе своих и чужих описаний. В идеале продвинутый агент должен обладать способностью точно описывать заданное слово, используя агрессивное описание, одновременно максимизируя путаницу в консервативном описании, что усиливает его участие в игре. Для этого мы сначала разрабатываем DEEP для оценки способностей LLM к выражению и маскировке. DEEP требует от LLM описать слово в агрессивном и консервативном режимах. Затем мы представляем SpyGame — интерактивную многоагентную платформу, предназначенную для оценки интеллекта LLM через участие в соревновательной настольной игре на основе языка. Включая взаимодействие нескольких агентов, SpyGame требует от целевой LLM обладать лингвистическими навыками и стратегическим мышлением, обеспечивая более комплексную оценку человеко-подобных когнитивных способностей и адаптивности LLM в сложных коммуникативных ситуациях. Предложенная система оценки очень проста в реализации. Мы собрали слова из различных источников, областей и языков и использовали предложенную систему оценки для проведения экспериментов. Многочисленные эксперименты демонстрируют, что предложенные DEEP и SpyGame эффективно оценивают возможности различных LLM, выявляя их способность адаптироваться к новым ситуациям и участвовать в стратегической коммуникации.
English
The automatic evaluation of LLM-based agent intelligence is critical in developing advanced LLM-based agents. Although considerable effort has been devoted to developing human-annotated evaluation datasets, such as AlpacaEval, existing techniques are costly, time-consuming, and lack adaptability. In this paper, inspired by the popular language game ``Who is Spy'', we propose to use the word guessing game to assess the intelligence performance of LLMs. Given a word, the LLM is asked to describe the word and determine its identity (spy or not) based on its and other players' descriptions. Ideally, an advanced agent should possess the ability to accurately describe a given word using an aggressive description while concurrently maximizing confusion in the conservative description, enhancing its participation in the game. To this end, we first develop DEEP to evaluate LLMs' expression and disguising abilities. DEEP requires LLM to describe a word in aggressive and conservative modes. We then introduce SpyGame, an interactive multi-agent framework designed to assess LLMs' intelligence through participation in a competitive language-based board game. Incorporating multi-agent interaction, SpyGame requires the target LLM to possess linguistic skills and strategic thinking, providing a more comprehensive evaluation of LLMs' human-like cognitive abilities and adaptability in complex communication situations. The proposed evaluation framework is very easy to implement. We collected words from multiple sources, domains, and languages and used the proposed evaluation framework to conduct experiments. Extensive experiments demonstrate that the proposed DEEP and SpyGame effectively evaluate the capabilities of various LLMs, capturing their ability to adapt to novel situations and engage in strategic communication.
PDF81December 15, 2024