ChatPaper.aiChatPaper

GLEE: Ein einheitlicher Rahmen und Benchmark für sprachbasierte wirtschaftliche Umgebungen

GLEE: A Unified Framework and Benchmark for Language-based Economic Environments

October 7, 2024
Autoren: Eilam Shapira, Omer Madmon, Itamar Reinman, Samuel Joseph Amouyal, Roi Reichart, Moshe Tennenholtz
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen ein signifikantes Potenzial in wirtschaftlichen und strategischen Interaktionen, bei denen die Kommunikation über natürliche Sprache häufig vorkommt. Dies wirft wichtige Fragen auf: Verhalten sich LLMs rational? Können sie menschliches Verhalten imitieren? Neigen sie dazu, zu einem effizienten und fairen Ergebnis zu gelangen? Was ist die Rolle natürlicher Sprache in der strategischen Interaktion? Wie beeinflussen die Merkmale des wirtschaftlichen Umfelds diese Dynamiken? Diese Fragen werden im Hinblick auf die wirtschaftlichen und gesellschaftlichen Auswirkungen der Integration von LLM-basierten Agenten in datengesteuerte Systeme der realen Welt, wie Online-Handelsplattformen und Empfehlungssysteme, entscheidend. Während die ML-Gemeinschaft das Potenzial von LLMs in solchen Multi-Agenten-Szenarien erkundet hat, machen unterschiedliche Annahmen, Designentscheidungen und Bewertungskriterien in den Studien es schwierig, robuste und aussagekräftige Schlussfolgerungen zu ziehen. Um dies anzugehen, führen wir einen Maßstab ein, um die Forschung zu Zwei-Spieler-, sequenziellen, sprachbasierten Spielen zu standardisieren. Inspiriert von der wirtschaftlichen Literatur definieren wir drei Grundfamilien von Spielen mit konsistenter Parametrisierung, Freiheitsgraden und wirtschaftlichen Maßen zur Bewertung der Leistung der Agenten (Eigeninteresse) sowie des Spielausgangs (Effizienz und Fairness). Wir entwickeln ein Open-Source-Framework für die Interaktionssimulation und -analyse und nutzen es, um einen Datensatz von LLM vs. LLM-Interaktionen über zahlreiche Spielkonfigurationen und einen zusätzlichen Datensatz von Mensch vs. LLM-Interaktionen zu sammeln. Durch umfangreiche Experimente zeigen wir, wie unser Framework und Datensatz genutzt werden können, um: (i) das Verhalten von LLM-basierten Agenten mit dem menschlicher Spieler in verschiedenen wirtschaftlichen Kontexten zu vergleichen; (ii) Agenten anhand von individuellen und kollektiven Leistungskennzahlen zu bewerten; und (iii) den Effekt der wirtschaftlichen Merkmale der Umgebungen auf das Verhalten der Agenten zu quantifizieren.
English
Large Language Models (LLMs) show significant potential in economic and strategic interactions, where communication via natural language is often prevalent. This raises key questions: Do LLMs behave rationally? Can they mimic human behavior? Do they tend to reach an efficient and fair outcome? What is the role of natural language in the strategic interaction? How do characteristics of the economic environment influence these dynamics? These questions become crucial concerning the economic and societal implications of integrating LLM-based agents into real-world data-driven systems, such as online retail platforms and recommender systems. While the ML community has been exploring the potential of LLMs in such multi-agent setups, varying assumptions, design choices and evaluation criteria across studies make it difficult to draw robust and meaningful conclusions. To address this, we introduce a benchmark for standardizing research on two-player, sequential, language-based games. Inspired by the economic literature, we define three base families of games with consistent parameterization, degrees of freedom and economic measures to evaluate agents' performance (self-gain), as well as the game outcome (efficiency and fairness). We develop an open-source framework for interaction simulation and analysis, and utilize it to collect a dataset of LLM vs. LLM interactions across numerous game configurations and an additional dataset of human vs. LLM interactions. Through extensive experimentation, we demonstrate how our framework and dataset can be used to: (i) compare the behavior of LLM-based agents to human players in various economic contexts; (ii) evaluate agents in both individual and collective performance measures; and (iii) quantify the effect of the economic characteristics of the environments on the behavior of agents.

Summary

AI-Generated Summary

PDF852November 16, 2024