Exploiter les jeux de devinettes de mots pour évaluer l'intelligence des modèles de langage à grande échelle
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models
October 31, 2023
Auteurs: Tian Liang, Zhiwei He, Jen-tes Huang, Wenxuan Wang, Wenxiang Jiao, Rui Wang, Yujiu Yang, Zhaopeng Tu, Shuming Shi, Xing Wang
cs.AI
Résumé
L'évaluation automatique de l'intelligence des agents basés sur LLM est cruciale pour le développement d'agents LLM avancés. Bien que des efforts considérables aient été consacrés à la création de jeux de données d'évaluation annotés par des humains, tels qu'AlpacaEval, les techniques existantes sont coûteuses, chronophages et manquent d'adaptabilité. Dans cet article, inspiré par le jeu de langage populaire « Qui est l'espion », nous proposons d'utiliser le jeu de devinettes de mots pour évaluer les performances intellectuelles des LLM. Étant donné un mot, le LLM est invité à décrire le mot et à déterminer son identité (espion ou non) en se basant sur sa propre description et celles des autres joueurs. Idéalement, un agent avancé devrait être capable de décrire avec précision un mot donné en utilisant une description agressive tout en maximisant la confusion dans la description conservatrice, améliorant ainsi sa participation au jeu. À cette fin, nous développons d'abord DEEP pour évaluer les capacités d'expression et de dissimulation des LLM. DEEP exige que le LLM décrive un mot en modes agressif et conservateur. Nous introduisons ensuite SpyGame, un cadre interactif multi-agent conçu pour évaluer l'intelligence des LLM à travers leur participation à un jeu de société compétitif basé sur le langage. Intégrant l'interaction multi-agent, SpyGame exige que le LLM cible possède des compétences linguistiques et une pensée stratégique, offrant une évaluation plus complète des capacités cognitives humaines des LLM et de leur adaptabilité dans des situations de communication complexes. Le cadre d'évaluation proposé est très facile à mettre en œuvre. Nous avons collecté des mots provenant de multiples sources, domaines et langues et avons utilisé le cadre d'évaluation proposé pour mener des expériences. Des expériences approfondies démontrent que DEEP et SpyGame évaluent efficacement les capacités de divers LLM, capturant leur capacité à s'adapter à des situations nouvelles et à s'engager dans une communication stratégique.
English
The automatic evaluation of LLM-based agent intelligence is critical in
developing advanced LLM-based agents. Although considerable effort has been
devoted to developing human-annotated evaluation datasets, such as AlpacaEval,
existing techniques are costly, time-consuming, and lack adaptability. In this
paper, inspired by the popular language game ``Who is Spy'', we propose to use
the word guessing game to assess the intelligence performance of LLMs. Given a
word, the LLM is asked to describe the word and determine its identity (spy or
not) based on its and other players' descriptions. Ideally, an advanced agent
should possess the ability to accurately describe a given word using an
aggressive description while concurrently maximizing confusion in the
conservative description, enhancing its participation in the game. To this end,
we first develop DEEP to evaluate LLMs' expression and disguising abilities.
DEEP requires LLM to describe a word in aggressive and conservative modes. We
then introduce SpyGame, an interactive multi-agent framework designed to assess
LLMs' intelligence through participation in a competitive language-based board
game. Incorporating multi-agent interaction, SpyGame requires the target LLM to
possess linguistic skills and strategic thinking, providing a more
comprehensive evaluation of LLMs' human-like cognitive abilities and
adaptability in complex communication situations. The proposed evaluation
framework is very easy to implement. We collected words from multiple sources,
domains, and languages and used the proposed evaluation framework to conduct
experiments. Extensive experiments demonstrate that the proposed DEEP and
SpyGame effectively evaluate the capabilities of various LLMs, capturing their
ability to adapt to novel situations and engage in strategic communication.