ChatPaper.aiChatPaper

GLEE: Un marco unificado y punto de referencia para entornos económicos basados en el lenguaje

GLEE: A Unified Framework and Benchmark for Language-based Economic Environments

October 7, 2024
Autores: Eilam Shapira, Omer Madmon, Itamar Reinman, Samuel Joseph Amouyal, Roi Reichart, Moshe Tennenholtz
cs.AI

Resumen

Los Modelos de Lenguaje Grandes (LLMs) muestran un potencial significativo en interacciones económicas y estratégicas, donde la comunicación a través del lenguaje natural es frecuente. Esto plantea preguntas clave: ¿Se comportan los LLMs de manera racional? ¿Pueden imitar el comportamiento humano? ¿Tienden a alcanzar un resultado eficiente y justo? ¿Cuál es el papel del lenguaje natural en la interacción estratégica? ¿Cómo influyen las características del entorno económico en estas dinámicas? Estas preguntas se vuelven cruciales en relación con las implicaciones económicas y sociales de integrar agentes basados en LLMs en sistemas del mundo real impulsados por datos, como plataformas de venta en línea y sistemas de recomendación. Aunque la comunidad de ML ha estado explorando el potencial de los LLMs en tales configuraciones multiagente, las diferentes suposiciones, elecciones de diseño y criterios de evaluación en los estudios dificultan llegar a conclusiones sólidas y significativas. Para abordar esto, presentamos un punto de referencia para estandarizar la investigación en juegos basados en lenguaje secuencial de dos jugadores. Inspirados en la literatura económica, definimos tres familias base de juegos con parametrización consistente, grados de libertad y medidas económicas para evaluar el rendimiento de los agentes (auto-ganancia), así como el resultado del juego (eficiencia y justicia). Desarrollamos un marco de código abierto para simulación y análisis de interacciones, y lo utilizamos para recopilar un conjunto de datos de interacciones LLM vs. LLM en numerosas configuraciones de juegos y un conjunto de datos adicional de interacciones humanos vs. LLM. A través de experimentación extensiva, demostramos cómo nuestro marco y conjunto de datos pueden usarse para: (i) comparar el comportamiento de agentes basados en LLM con jugadores humanos en varios contextos económicos; (ii) evaluar agentes en medidas de rendimiento tanto individuales como colectivas; y (iii) cuantificar el efecto de las características económicas de los entornos en el comportamiento de los agentes.
English
Large Language Models (LLMs) show significant potential in economic and strategic interactions, where communication via natural language is often prevalent. This raises key questions: Do LLMs behave rationally? Can they mimic human behavior? Do they tend to reach an efficient and fair outcome? What is the role of natural language in the strategic interaction? How do characteristics of the economic environment influence these dynamics? These questions become crucial concerning the economic and societal implications of integrating LLM-based agents into real-world data-driven systems, such as online retail platforms and recommender systems. While the ML community has been exploring the potential of LLMs in such multi-agent setups, varying assumptions, design choices and evaluation criteria across studies make it difficult to draw robust and meaningful conclusions. To address this, we introduce a benchmark for standardizing research on two-player, sequential, language-based games. Inspired by the economic literature, we define three base families of games with consistent parameterization, degrees of freedom and economic measures to evaluate agents' performance (self-gain), as well as the game outcome (efficiency and fairness). We develop an open-source framework for interaction simulation and analysis, and utilize it to collect a dataset of LLM vs. LLM interactions across numerous game configurations and an additional dataset of human vs. LLM interactions. Through extensive experimentation, we demonstrate how our framework and dataset can be used to: (i) compare the behavior of LLM-based agents to human players in various economic contexts; (ii) evaluate agents in both individual and collective performance measures; and (iii) quantify the effect of the economic characteristics of the environments on the behavior of agents.

Summary

AI-Generated Summary

PDF852November 16, 2024