ChatPaper.aiChatPaper

Aprovechando los juegos de adivinanza de palabras para evaluar la inteligencia de los modelos de lenguaje de gran escala

Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models

October 31, 2023
Autores: Tian Liang, Zhiwei He, Jen-tes Huang, Wenxuan Wang, Wenxiang Jiao, Rui Wang, Yujiu Yang, Zhaopeng Tu, Shuming Shi, Xing Wang
cs.AI

Resumen

La evaluación automática de la inteligencia de agentes basados en LLM (Modelos de Lenguaje de Gran Escala) es fundamental para el desarrollo de agentes avanzados basados en LLM. Aunque se ha dedicado un esfuerzo considerable a la creación de conjuntos de datos de evaluación anotados por humanos, como AlpacaEval, las técnicas existentes son costosas, consumen mucho tiempo y carecen de adaptabilidad. En este artículo, inspirados en el popular juego de lenguaje "¿Quién es el espía?", proponemos utilizar el juego de adivinanza de palabras para evaluar el desempeño de la inteligencia de los LLM. Dada una palabra, se le pide al LLM que la describa y determine su identidad (espía o no) basándose en su propia descripción y en las de otros jugadores. Idealmente, un agente avanzado debería poseer la capacidad de describir con precisión una palabra dada utilizando una descripción agresiva, mientras maximiza la confusión en la descripción conservadora, mejorando así su participación en el juego. Con este fin, primero desarrollamos DEEP para evaluar las habilidades de expresión y disfraz de los LLM. DEEP requiere que el LLM describa una palabra en modos agresivo y conservador. Luego, presentamos SpyGame, un marco interactivo de múltiples agentes diseñado para evaluar la inteligencia de los LLM a través de la participación en un juego de mesa competitivo basado en el lenguaje. Al incorporar la interacción de múltiples agentes, SpyGame exige que el LLM objetivo posea habilidades lingüísticas y pensamiento estratégico, proporcionando una evaluación más completa de las habilidades cognitivas similares a las humanas y la adaptabilidad de los LLM en situaciones de comunicación complejas. El marco de evaluación propuesto es muy fácil de implementar. Recopilamos palabras de múltiples fuentes, dominios e idiomas y utilizamos el marco de evaluación propuesto para realizar experimentos. Experimentos extensos demuestran que DEEP y SpyGame evalúan eficazmente las capacidades de varios LLM, capturando su capacidad para adaptarse a situaciones novedosas y participar en comunicaciones estratégicas.
English
The automatic evaluation of LLM-based agent intelligence is critical in developing advanced LLM-based agents. Although considerable effort has been devoted to developing human-annotated evaluation datasets, such as AlpacaEval, existing techniques are costly, time-consuming, and lack adaptability. In this paper, inspired by the popular language game ``Who is Spy'', we propose to use the word guessing game to assess the intelligence performance of LLMs. Given a word, the LLM is asked to describe the word and determine its identity (spy or not) based on its and other players' descriptions. Ideally, an advanced agent should possess the ability to accurately describe a given word using an aggressive description while concurrently maximizing confusion in the conservative description, enhancing its participation in the game. To this end, we first develop DEEP to evaluate LLMs' expression and disguising abilities. DEEP requires LLM to describe a word in aggressive and conservative modes. We then introduce SpyGame, an interactive multi-agent framework designed to assess LLMs' intelligence through participation in a competitive language-based board game. Incorporating multi-agent interaction, SpyGame requires the target LLM to possess linguistic skills and strategic thinking, providing a more comprehensive evaluation of LLMs' human-like cognitive abilities and adaptability in complex communication situations. The proposed evaluation framework is very easy to implement. We collected words from multiple sources, domains, and languages and used the proposed evaluation framework to conduct experiments. Extensive experiments demonstrate that the proposed DEEP and SpyGame effectively evaluate the capabilities of various LLMs, capturing their ability to adapt to novel situations and engage in strategic communication.
PDF81December 15, 2024