ChatPaper.aiChatPaper

GLEE : Un cadre unifié et un banc d'essai pour les environnements économiques basés sur le langage

GLEE: A Unified Framework and Benchmark for Language-based Economic Environments

October 7, 2024
Auteurs: Eilam Shapira, Omer Madmon, Itamar Reinman, Samuel Joseph Amouyal, Roi Reichart, Moshe Tennenholtz
cs.AI

Résumé

Les grands modèles de langage (LLM) montrent un potentiel significatif dans les interactions économiques et stratégiques, où la communication via le langage naturel est souvent prédominante. Cela soulève des questions clés : Les LLM se comportent-ils de manière rationnelle ? Peuvent-ils imiter le comportement humain ? Tendent-ils vers un résultat efficace et équitable ? Quel est le rôle du langage naturel dans l'interaction stratégique ? Comment les caractéristiques de l'environnement économique influencent-elles ces dynamiques ? Ces questions deviennent cruciales en ce qui concerne les implications économiques et sociétales de l'intégration d'agents basés sur des LLM dans des systèmes réels pilotés par les données, tels que des plateformes de vente en ligne et des systèmes de recommandation. Alors que la communauté de l'apprentissage automatique explore le potentiel des LLM dans de tels environnements multi-agents, des hypothèses variables, des choix de conception et des critères d'évaluation à travers les études rendent difficile l'obtention de conclusions robustes et significatives. Pour remédier à cela, nous introduisons un banc d'essai pour standardiser la recherche sur les jeux basés sur le langage à deux joueurs et séquentiels. Inspirés par la littérature économique, nous définissons trois familles de jeux de base avec une paramétrisation cohérente, des degrés de liberté et des mesures économiques pour évaluer la performance des agents (gain personnel), ainsi que le résultat du jeu (efficacité et équité). Nous développons un cadre open-source pour la simulation et l'analyse des interactions, et l'utilisons pour collecter un ensemble de données d'interactions LLM contre LLM à travers de nombreuses configurations de jeu et un ensemble de données supplémentaire d'interactions humain contre LLM. À travers une expérimentation approfondie, nous démontrons comment notre cadre et notre ensemble de données peuvent être utilisés pour : (i) comparer le comportement des agents basés sur des LLM à celui des joueurs humains dans divers contextes économiques ; (ii) évaluer les agents selon des mesures de performance individuelles et collectives ; et (iii) quantifier l'effet des caractéristiques économiques des environnements sur le comportement des agents.
English
Large Language Models (LLMs) show significant potential in economic and strategic interactions, where communication via natural language is often prevalent. This raises key questions: Do LLMs behave rationally? Can they mimic human behavior? Do they tend to reach an efficient and fair outcome? What is the role of natural language in the strategic interaction? How do characteristics of the economic environment influence these dynamics? These questions become crucial concerning the economic and societal implications of integrating LLM-based agents into real-world data-driven systems, such as online retail platforms and recommender systems. While the ML community has been exploring the potential of LLMs in such multi-agent setups, varying assumptions, design choices and evaluation criteria across studies make it difficult to draw robust and meaningful conclusions. To address this, we introduce a benchmark for standardizing research on two-player, sequential, language-based games. Inspired by the economic literature, we define three base families of games with consistent parameterization, degrees of freedom and economic measures to evaluate agents' performance (self-gain), as well as the game outcome (efficiency and fairness). We develop an open-source framework for interaction simulation and analysis, and utilize it to collect a dataset of LLM vs. LLM interactions across numerous game configurations and an additional dataset of human vs. LLM interactions. Through extensive experimentation, we demonstrate how our framework and dataset can be used to: (i) compare the behavior of LLM-based agents to human players in various economic contexts; (ii) evaluate agents in both individual and collective performance measures; and (iii) quantify the effect of the economic characteristics of the environments on the behavior of agents.

Summary

AI-Generated Summary

PDF852November 16, 2024