Sfruttare i giochi di indovinare parole per valutare l'intelligenza dei modelli linguistici su larga scala
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models
October 31, 2023
Autori: Tian Liang, Zhiwei He, Jen-tes Huang, Wenxuan Wang, Wenxiang Jiao, Rui Wang, Yujiu Yang, Zhaopeng Tu, Shuming Shi, Xing Wang
cs.AI
Abstract
La valutazione automatica dell'intelligenza degli agenti basati su LLM (Large Language Models) è fondamentale per lo sviluppo di agenti avanzati basati su LLM. Sebbene siano stati compiuti notevoli sforzi per creare dataset di valutazione annotati da esseri umani, come AlpacaEval, le tecniche esistenti sono costose, richiedono molto tempo e mancano di adattabilità. In questo articolo, ispirati dal popolare gioco linguistico "Chi è la spia", proponiamo di utilizzare il gioco di indovinare le parole per valutare le prestazioni intellettuali degli LLM. Data una parola, all'LLM viene chiesto di descriverla e di determinarne l'identità (spia o no) basandosi sulle proprie descrizioni e su quelle degli altri giocatori. Idealmente, un agente avanzato dovrebbe possedere la capacità di descrivere accuratamente una parola data utilizzando una descrizione aggressiva, massimizzando contemporaneamente la confusione nella descrizione conservativa, migliorando così la sua partecipazione al gioco. A tal fine, abbiamo sviluppato DEEP per valutare le capacità espressive e di mascheramento degli LLM. DEEP richiede all'LLM di descrivere una parola in modalità aggressiva e conservativa. Successivamente, introduciamo SpyGame, un framework interattivo multi-agente progettato per valutare l'intelligenza degli LLM attraverso la partecipazione a un gioco da tavolo competitivo basato sul linguaggio. Incorporando l'interazione multi-agente, SpyGame richiede che l'LLM target possieda abilità linguistiche e pensiero strategico, fornendo una valutazione più completa delle capacità cognitive simili a quelle umane e dell'adattabilità degli LLM in situazioni di comunicazione complesse. Il framework di valutazione proposto è molto semplice da implementare. Abbiamo raccolto parole da molteplici fonti, domini e lingue e abbiamo utilizzato il framework di valutazione proposto per condurre esperimenti. Esperimenti estensivi dimostrano che DEEP e SpyGame valutano efficacemente le capacità di vari LLM, catturando la loro capacità di adattarsi a situazioni nuove e di impegnarsi in comunicazioni strategiche.
English
The automatic evaluation of LLM-based agent intelligence is critical in
developing advanced LLM-based agents. Although considerable effort has been
devoted to developing human-annotated evaluation datasets, such as AlpacaEval,
existing techniques are costly, time-consuming, and lack adaptability. In this
paper, inspired by the popular language game ``Who is Spy'', we propose to use
the word guessing game to assess the intelligence performance of LLMs. Given a
word, the LLM is asked to describe the word and determine its identity (spy or
not) based on its and other players' descriptions. Ideally, an advanced agent
should possess the ability to accurately describe a given word using an
aggressive description while concurrently maximizing confusion in the
conservative description, enhancing its participation in the game. To this end,
we first develop DEEP to evaluate LLMs' expression and disguising abilities.
DEEP requires LLM to describe a word in aggressive and conservative modes. We
then introduce SpyGame, an interactive multi-agent framework designed to assess
LLMs' intelligence through participation in a competitive language-based board
game. Incorporating multi-agent interaction, SpyGame requires the target LLM to
possess linguistic skills and strategic thinking, providing a more
comprehensive evaluation of LLMs' human-like cognitive abilities and
adaptability in complex communication situations. The proposed evaluation
framework is very easy to implement. We collected words from multiple sources,
domains, and languages and used the proposed evaluation framework to conduct
experiments. Extensive experiments demonstrate that the proposed DEEP and
SpyGame effectively evaluate the capabilities of various LLMs, capturing their
ability to adapt to novel situations and engage in strategic communication.