Nutzung von Wortratespielen zur Bewertung der Intelligenz großer Sprachmodelle
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models
October 31, 2023
papers.authors: Tian Liang, Zhiwei He, Jen-tes Huang, Wenxuan Wang, Wenxiang Jiao, Rui Wang, Yujiu Yang, Zhaopeng Tu, Shuming Shi, Xing Wang
cs.AI
papers.abstract
Die automatische Bewertung der Intelligenz von LLM-basierten Agenten ist entscheidend für die Entwicklung fortschrittlicher LLM-basierter Agenten. Obwohl erhebliche Anstrengungen in die Erstellung von menschlich annotierten Evaluationsdatensätzen wie AlpacaEval investiert wurden, sind bestehende Techniken kostspielig, zeitaufwendig und wenig anpassungsfähig. In diesem Artikel schlagen wir, inspiriert durch das beliebte Sprachspiel „Wer ist der Spion“, vor, das Wortratespiel zur Bewertung der Intelligenzleistung von LLMs zu verwenden. Gegeben ein Wort wird das LLM aufgefordert, das Wort zu beschreiben und seine Identität (Spion oder nicht) basierend auf seinen und den Beschreibungen anderer Spieler zu bestimmen. Idealerweise sollte ein fortschrittlicher Agent die Fähigkeit besitzen, ein gegebenes Wort präzise mit einer aggressiven Beschreibung zu beschreiben, während gleichzeitig die Verwirrung in der konservativen Beschreibung maximiert wird, um seine Teilnahme am Spiel zu verbessern. Zu diesem Zweck entwickeln wir zunächst DEEP, um die Ausdrucks- und Tarnfähigkeiten von LLMs zu bewerten. DEEP erfordert, dass das LLM ein Wort in aggressiven und konservativen Modi beschreibt. Anschließend führen wir SpyGame ein, ein interaktives Multi-Agenten-Framework, das darauf abzielt, die Intelligenz von LLMs durch die Teilnahme an einem wettbewerbsorientierten sprachbasierten Brettspiel zu bewerten. Durch die Einbindung von Multi-Agenten-Interaktionen erfordert SpyGame, dass das Ziel-LLM über sprachliche Fähigkeiten und strategisches Denken verfügt, und bietet so eine umfassendere Bewertung der menschenähnlichen kognitiven Fähigkeiten und Anpassungsfähigkeit von LLMs in komplexen Kommunikationssituationen. Das vorgeschlagene Bewertungsframework ist sehr einfach zu implementieren. Wir haben Wörter aus verschiedenen Quellen, Domänen und Sprachen gesammelt und das vorgeschlagene Bewertungsframework verwendet, um Experimente durchzuführen. Umfangreiche Experimente zeigen, dass die vorgeschlagenen DEEP und SpyGame die Fähigkeiten verschiedener LLMs effektiv bewerten und ihre Fähigkeit erfassen, sich an neue Situationen anzupassen und strategische Kommunikation zu führen.
English
The automatic evaluation of LLM-based agent intelligence is critical in
developing advanced LLM-based agents. Although considerable effort has been
devoted to developing human-annotated evaluation datasets, such as AlpacaEval,
existing techniques are costly, time-consuming, and lack adaptability. In this
paper, inspired by the popular language game ``Who is Spy'', we propose to use
the word guessing game to assess the intelligence performance of LLMs. Given a
word, the LLM is asked to describe the word and determine its identity (spy or
not) based on its and other players' descriptions. Ideally, an advanced agent
should possess the ability to accurately describe a given word using an
aggressive description while concurrently maximizing confusion in the
conservative description, enhancing its participation in the game. To this end,
we first develop DEEP to evaluate LLMs' expression and disguising abilities.
DEEP requires LLM to describe a word in aggressive and conservative modes. We
then introduce SpyGame, an interactive multi-agent framework designed to assess
LLMs' intelligence through participation in a competitive language-based board
game. Incorporating multi-agent interaction, SpyGame requires the target LLM to
possess linguistic skills and strategic thinking, providing a more
comprehensive evaluation of LLMs' human-like cognitive abilities and
adaptability in complex communication situations. The proposed evaluation
framework is very easy to implement. We collected words from multiple sources,
domains, and languages and used the proposed evaluation framework to conduct
experiments. Extensive experiments demonstrate that the proposed DEEP and
SpyGame effectively evaluate the capabilities of various LLMs, capturing their
ability to adapt to novel situations and engage in strategic communication.