ChatPaper.aiChatPaper

Aproveitando Jogos de Adivinhação de Palavras para Avaliar a Inteligência de Modelos de Linguagem de Grande Escala

Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models

October 31, 2023
Autores: Tian Liang, Zhiwei He, Jen-tes Huang, Wenxuan Wang, Wenxiang Jiao, Rui Wang, Yujiu Yang, Zhaopeng Tu, Shuming Shi, Xing Wang
cs.AI

Resumo

A avaliação automática da inteligência de agentes baseados em LLMs (Large Language Models) é crucial para o desenvolvimento de agentes avançados baseados em LLMs. Embora esforços consideráveis tenham sido dedicados ao desenvolvimento de conjuntos de dados de avaliação anotados por humanos, como o AlpacaEval, as técnicas existentes são caras, demoradas e carecem de adaptabilidade. Neste artigo, inspirados pelo popular jogo de linguagem "Quem é o Espião", propomos usar o jogo de adivinhação de palavras para avaliar o desempenho de inteligência dos LLMs. Dada uma palavra, o LLM é solicitado a descrever a palavra e determinar sua identidade (espião ou não) com base em sua própria descrição e nas descrições de outros jogadores. Idealmente, um agente avançado deve possuir a capacidade de descrever com precisão uma palavra dada usando uma descrição agressiva, enquanto maximiza a confusão na descrição conservadora, aumentando sua participação no jogo. Para isso, primeiro desenvolvemos o DEEP para avaliar as habilidades de expressão e disfarce dos LLMs. O DEEP exige que o LLM descreva uma palavra em modos agressivo e conservador. Em seguida, introduzimos o SpyGame, uma estrutura interativa de multiagentes projetada para avaliar a inteligência dos LLMs por meio da participação em um jogo de tabuleiro competitivo baseado em linguagem. Incorporando a interação de multiagentes, o SpyGame exige que o LLM alvo possua habilidades linguísticas e pensamento estratégico, fornecendo uma avaliação mais abrangente das habilidades cognitivas semelhantes às humanas e da adaptabilidade dos LLMs em situações complexas de comunicação. A estrutura de avaliação proposta é muito fácil de implementar. Coletamos palavras de várias fontes, domínios e idiomas e usamos a estrutura de avaliação proposta para conduzir experimentos. Experimentos extensivos demonstram que o DEEP e o SpyGame propostos avaliam efetivamente as capacidades de vários LLMs, capturando sua capacidade de se adaptar a novas situações e se envolver em comunicação estratégica.
English
The automatic evaluation of LLM-based agent intelligence is critical in developing advanced LLM-based agents. Although considerable effort has been devoted to developing human-annotated evaluation datasets, such as AlpacaEval, existing techniques are costly, time-consuming, and lack adaptability. In this paper, inspired by the popular language game ``Who is Spy'', we propose to use the word guessing game to assess the intelligence performance of LLMs. Given a word, the LLM is asked to describe the word and determine its identity (spy or not) based on its and other players' descriptions. Ideally, an advanced agent should possess the ability to accurately describe a given word using an aggressive description while concurrently maximizing confusion in the conservative description, enhancing its participation in the game. To this end, we first develop DEEP to evaluate LLMs' expression and disguising abilities. DEEP requires LLM to describe a word in aggressive and conservative modes. We then introduce SpyGame, an interactive multi-agent framework designed to assess LLMs' intelligence through participation in a competitive language-based board game. Incorporating multi-agent interaction, SpyGame requires the target LLM to possess linguistic skills and strategic thinking, providing a more comprehensive evaluation of LLMs' human-like cognitive abilities and adaptability in complex communication situations. The proposed evaluation framework is very easy to implement. We collected words from multiple sources, domains, and languages and used the proposed evaluation framework to conduct experiments. Extensive experiments demonstrate that the proposed DEEP and SpyGame effectively evaluate the capabilities of various LLMs, capturing their ability to adapt to novel situations and engage in strategic communication.
PDF81December 15, 2024