Het benutten van woordraadspellen om de intelligentie van grote taalmodelen te evalueren

Samenvatting

De automatische evaluatie van de intelligentie van op LLM gebaseerde agents is cruciaal bij de ontwikkeling van geavanceerde LLM-gebaseerde agents. Hoewel aanzienlijke inspanningen zijn geleverd om door mensen geannoteerde evaluatiedatasets te ontwikkelen, zoals AlpacaEval, zijn bestaande technieken kostbaar, tijdrovend en gebrek aan aanpasbaarheid. In dit artikel, geïnspireerd door het populaire taalspel ``Wie is de Spion'', stellen we voor om het woordraadspel te gebruiken om de intelligentieprestaties van LLM's te beoordelen. Gegeven een woord wordt de LLM gevraagd het woord te beschrijven en zijn identiteit (spion of niet) te bepalen op basis van zijn eigen beschrijving en die van andere spelers. Idealiter zou een geavanceerde agent het vermogen moeten hebben om een gegeven woord nauwkeurig te beschrijven met een agressieve beschrijving, terwijl tegelijkertijd verwarring wordt gemaximaliseerd in de conservatieve beschrijving, waardoor zijn deelname aan het spel wordt verbeterd. Hiertoe ontwikkelen we eerst DEEP om de uitdrukkings- en vermommingvaardigheden van LLM's te evalueren. DEEP vereist dat de LLM een woord beschrijft in agressieve en conservatieve modi. Vervolgens introduceren we SpyGame, een interactief multi-agent framework ontworpen om de intelligentie van LLM's te beoordelen door deelname aan een competitief taalgebaseerd bordspel. Door multi-agent interactie te incorporeren, vereist SpyGame dat de doel-LLM over linguïstische vaardigheden en strategisch denken beschikt, wat een uitgebreidere evaluatie biedt van de mensachtige cognitieve vaardigheden en aanpasbaarheid van LLM's in complexe communicatiesituaties. Het voorgestelde evaluatieframework is zeer eenvoudig te implementeren. We hebben woorden verzameld uit meerdere bronnen, domeinen en talen en hebben het voorgestelde evaluatieframework gebruikt om experimenten uit te voeren. Uitgebreide experimenten tonen aan dat de voorgestelde DEEP en SpyGame effectief de capaciteiten van verschillende LLM's evalueren, waarbij hun vermogen om zich aan te passen aan nieuwe situaties en strategische communicatie te voeren wordt vastgelegd.

English

The automatic evaluation of LLM-based agent intelligence is critical in developing advanced LLM-based agents. Although considerable effort has been devoted to developing human-annotated evaluation datasets, such as AlpacaEval, existing techniques are costly, time-consuming, and lack adaptability. In this paper, inspired by the popular language game ``Who is Spy'', we propose to use the word guessing game to assess the intelligence performance of LLMs. Given a word, the LLM is asked to describe the word and determine its identity (spy or not) based on its and other players' descriptions. Ideally, an advanced agent should possess the ability to accurately describe a given word using an aggressive description while concurrently maximizing confusion in the conservative description, enhancing its participation in the game. To this end, we first develop DEEP to evaluate LLMs' expression and disguising abilities. DEEP requires LLM to describe a word in aggressive and conservative modes. We then introduce SpyGame, an interactive multi-agent framework designed to assess LLMs' intelligence through participation in a competitive language-based board game. Incorporating multi-agent interaction, SpyGame requires the target LLM to possess linguistic skills and strategic thinking, providing a more comprehensive evaluation of LLMs' human-like cognitive abilities and adaptability in complex communication situations. The proposed evaluation framework is very easy to implement. We collected words from multiple sources, domains, and languages and used the proposed evaluation framework to conduct experiments. Extensive experiments demonstrate that the proposed DEEP and SpyGame effectively evaluate the capabilities of various LLMs, capturing their ability to adapt to novel situations and engage in strategic communication.

Het benutten van woordraadspellen om de intelligentie van grote taalmodelen te evalueren

Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models

Samenvatting

Support