Het benutten van woordraadspellen om de intelligentie van grote taalmodelen te evalueren
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models
October 31, 2023
Auteurs: Tian Liang, Zhiwei He, Jen-tes Huang, Wenxuan Wang, Wenxiang Jiao, Rui Wang, Yujiu Yang, Zhaopeng Tu, Shuming Shi, Xing Wang
cs.AI
Samenvatting
De automatische evaluatie van de intelligentie van op LLM gebaseerde agents is cruciaal bij de ontwikkeling van geavanceerde LLM-gebaseerde agents. Hoewel aanzienlijke inspanningen zijn geleverd om door mensen geannoteerde evaluatiedatasets te ontwikkelen, zoals AlpacaEval, zijn bestaande technieken kostbaar, tijdrovend en gebrek aan aanpasbaarheid. In dit artikel, geïnspireerd door het populaire taalspel ``Wie is de Spion'', stellen we voor om het woordraadspel te gebruiken om de intelligentieprestaties van LLM's te beoordelen. Gegeven een woord wordt de LLM gevraagd het woord te beschrijven en zijn identiteit (spion of niet) te bepalen op basis van zijn eigen beschrijving en die van andere spelers. Idealiter zou een geavanceerde agent het vermogen moeten hebben om een gegeven woord nauwkeurig te beschrijven met een agressieve beschrijving, terwijl tegelijkertijd verwarring wordt gemaximaliseerd in de conservatieve beschrijving, waardoor zijn deelname aan het spel wordt verbeterd. Hiertoe ontwikkelen we eerst DEEP om de uitdrukkings- en vermommingvaardigheden van LLM's te evalueren. DEEP vereist dat de LLM een woord beschrijft in agressieve en conservatieve modi. Vervolgens introduceren we SpyGame, een interactief multi-agent framework ontworpen om de intelligentie van LLM's te beoordelen door deelname aan een competitief taalgebaseerd bordspel. Door multi-agent interactie te incorporeren, vereist SpyGame dat de doel-LLM over linguïstische vaardigheden en strategisch denken beschikt, wat een uitgebreidere evaluatie biedt van de mensachtige cognitieve vaardigheden en aanpasbaarheid van LLM's in complexe communicatiesituaties. Het voorgestelde evaluatieframework is zeer eenvoudig te implementeren. We hebben woorden verzameld uit meerdere bronnen, domeinen en talen en hebben het voorgestelde evaluatieframework gebruikt om experimenten uit te voeren. Uitgebreide experimenten tonen aan dat de voorgestelde DEEP en SpyGame effectief de capaciteiten van verschillende LLM's evalueren, waarbij hun vermogen om zich aan te passen aan nieuwe situaties en strategische communicatie te voeren wordt vastgelegd.
English
The automatic evaluation of LLM-based agent intelligence is critical in
developing advanced LLM-based agents. Although considerable effort has been
devoted to developing human-annotated evaluation datasets, such as AlpacaEval,
existing techniques are costly, time-consuming, and lack adaptability. In this
paper, inspired by the popular language game ``Who is Spy'', we propose to use
the word guessing game to assess the intelligence performance of LLMs. Given a
word, the LLM is asked to describe the word and determine its identity (spy or
not) based on its and other players' descriptions. Ideally, an advanced agent
should possess the ability to accurately describe a given word using an
aggressive description while concurrently maximizing confusion in the
conservative description, enhancing its participation in the game. To this end,
we first develop DEEP to evaluate LLMs' expression and disguising abilities.
DEEP requires LLM to describe a word in aggressive and conservative modes. We
then introduce SpyGame, an interactive multi-agent framework designed to assess
LLMs' intelligence through participation in a competitive language-based board
game. Incorporating multi-agent interaction, SpyGame requires the target LLM to
possess linguistic skills and strategic thinking, providing a more
comprehensive evaluation of LLMs' human-like cognitive abilities and
adaptability in complex communication situations. The proposed evaluation
framework is very easy to implement. We collected words from multiple sources,
domains, and languages and used the proposed evaluation framework to conduct
experiments. Extensive experiments demonstrate that the proposed DEEP and
SpyGame effectively evaluate the capabilities of various LLMs, capturing their
ability to adapt to novel situations and engage in strategic communication.